Ця стаття має кілька недоліків. Будь ласка, допоможіть удосконалити її або обговоріть ці проблеми на .
|
Профілювання даних — це процес вивчення даних, доступних із існуючого джерела інформації і збору статистичних чи інформативних підсумків щодо цих даних.
Мета профілювання
Метою процесу може бути:
- Потреба в інформації чи можна легко використати існуючі дані для інших цілей
- Покращення можливостей пошуку даних, позначивши їх ключовими словами, описами або призначивши їх категорії
- Оцінка якості даних, включно з тим, чи відповідають дані певним стандартам або шаблонам
- Оцінка ризиків, пов'язані з інтеграцією даних у нові програми, включно з проблемами об'єднань
- Відкриття для себе метаданих вихідної бази даних, включаючи шаблони значень і розподіли, кандидати на ключі, кандидати на зовнішні ключі та функціональні залежності
- Можливість оцінки, чи відомі метадані точно описують фактичні значення у вихідній базі даних
- Розуміння проблем з даними на ранній стадії будь-якого проєкту з інтенсивним використанням даних, щоб уникнути пізніх сюрпризів. Виявлення проблем із даними на пізньому етапі проєкту може призвести до затримок і перевитрат.
- Отримання корпоративного перегляду усіх даних для таких цілей, як керування основними даними, де потрібні ключові дані, або управління даними для покращення якості даних.
Особливості процесу профілювання
Профілювання даних відноситься до аналізу інформації для використання в сховищі даних, щоб прояснити структуру, зміст, взаємозв'язки та правила отримання даних. Профілювання допомагає не тільки зрозуміти аномалії та оцінити якість даних, але й виявити, зареєструвати та оцінити корпоративні метадані. Результат аналізу використовується для визначення придатності вихідних систем-кандидатів, що зазвичай дає основу для раннього прийняття/неприйняття рішення, а також для виявлення п рішення. Як проводиться профілювання даних Профілювання даних використовує методи описової статистики, такі як мінімум, максимум, середнє значення, мода, процентиль, стандартне відхилення, частота, варіація, агрегати, такі як підрахунок і сума, а також додаткову інформацію метаданих, отриману під час профілювання даних, таку як тип даних, довжина, дискретні значення, унікальність, поява нульових значень, типові шаблони рядків і розпізнавання абстрактних типів. Потім метадані можна використовувати для виявлення таких проблем, як недопустимі значення, орфографічні помилки, відсутні значення, різне представлення значення та дублікати.
Для різних структурних рівнів проводяться різні аналізи. Наприклад окремі стовпці можна профілювати окремо, щоб отримати розуміння частотного розподілу різних значень, типів і використання кожного стовпця. Залежності вбудованих значень можна виявити в аналізі між стовпцями. Нарешті, набори значень, що перекриваються, можливо, представляють відносини зовнішнього ключа між сутностями, можна досліджувати в міжтабличному аналізі. Складність обчислень зростає при переході від одного стовпця до однієї таблиці та міжтабличного структурного профілювання. Тому продуктивність є критерієм оцінки інструментів профілювання.
Застосування
Профілювання даних виконується кілька разів і з різною інтенсивністю протягом усього процесу розробки сховища. Полегшену оцінку профілювання проводять відразу після визначення вихідних систем-кандидатів і задоволення бізнес-вимог DW/BI (англ. Business Intelligence/Data Warehousing). Мета початкового аналізу полягає в тому, щоб з'ясувати, чи доступні правильні дані на відповідному рівні деталізації і чи можна усунути аномалії. Якщо це не так, проект може бути припинено. Пперед процесом розмірного моделювання виконується більш поглиблене профілювання, щоб оцінити, що потрібно для перетворення даних у розмірну модель. Детальне профілювання поширюється на процес проектування системи ETL, щоб визначити відповідні дані для вилучення та які фільтри застосувати до набору даних.
Крім того, профілювання даних може проводитися в процесі розробки сховища даних після того, як дані були завантажені в проміжну продукцію чи вітрини даних . Проведення даних на цих етапах допомагає переконатися, що очищення та перетворення даних виконано правильно та відповідно до вимог.
Переваги та приклади
Переваги профілювання даних полягають у покращенні якості даних, скороченні циклу реалізації великих проєктів і покращенні розуміння даних користувачами. Виявлення бізнес-знань, вбудованих у самі дані, є однією із значних переваг профілювання даних. Профілювання даних — це одна з найефективніших технологій для підвищення точності даних у корпоративних базах даних.[]
Див. також
Примітки
- Корпоративний інформаційний простір: сутність та еволюція DOI:10.31617/1.2022(144)06
Література
- Джонсон, Теодор (2009). «Профілювання даних». У Springer, Heidelberg (ред.). Енциклопедія систем баз даних.
- Вудолл, Філіп; Обергофер, Мартін; Борек, Олександр (2014). «Класифікація методів оцінки якості даних і покращення». Міжнародний журнал якості інформації. 3 (4): 298. doi:10.1504/ijiq.2014.068656.
- Кімбол, Ральф; та ін. (2008). Набір інструментів життєвого циклу сховища даних. С. 376. .
- Лошин, Девід (2009). Керування основними даними. Морган Кауфман. С. 94–96. .
- Лошин, Девід (2003). Бізнес-аналітика: Посібник для кмітливого менеджера, вступ до нових ІТ. Морган Кауфман. С. 110—111. .
- Рам, Ерхард; Hai Do, Hong (грудень 2000). «Очищення даних: проблеми та сучасні підходи». Бюлетень технічного комітету з інженерії даних. IEEE Computer Society. 23
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Nemaye perevirenih versij ciyeyi storinki jmovirno yiyi she ne pereviryali na vidpovidnist pravilam proektu Cya stattya maye kilka nedolikiv Bud laska dopomozhit udoskonaliti yiyi abo obgovorit ci problemi na storinci obgovorennya Cya stattya potrebuye uporyadkuvannya dlya vidpovidnosti standartam yakosti Vikipediyi Bud laska dopomozhit polipshiti cyu stattyu Mozhlivo storinka obgovorennya mistit zauvazhennya shodo potribnih zmin lyutij 2023 Diznajtesya yak i koli viluchati ce shablonne povidomlennya en Cya stattya mistit perelik dzherel ale pohodzhennya okremih tverdzhen u nij zalishayetsya nezrozumilim cherez praktichno povnu vidsutnist vinosok Bud laska dopomozhit polipshiti cyu stattyu dodajte vinoski z posilannyami na vidpovidni dzherela do tekstu statti lyutij 2023 Profilyuvannya danih ce proces vivchennya danih dostupnih iz isnuyuchogo dzherela informaciyi i zboru statistichnih chi informativnih pidsumkiv shodo cih danih Zmist 1 Meta profilyuvannya 2 Osoblivosti procesu profilyuvannya 3 Zastosuvannya 4 Perevagi ta prikladi 5 Div takozh 6 Primitki 7 LiteraturaMeta profilyuvannyared Metoyu procesu mozhe buti Potreba v informaciyi chi mozhna legko vikoristati isnuyuchi dani dlya inshih cilej Pokrashennya mozhlivostej poshuku danih poznachivshi yih klyuchovimi slovami opisami abo priznachivshi yih kategoriyi Ocinka yakosti danih vklyuchno z tim chi vidpovidayut dani pevnim standartam abo shablonam Ocinka rizikiv pov yazani z integraciyeyu danih u novi programi vklyuchno z problemami ob yednan Vidkrittya dlya sebe metadanih vihidnoyi bazi danih vklyuchayuchi shabloni znachen i rozpodili kandidati na klyuchi kandidati na zovnishni klyuchi ta funkcionalni zalezhnosti Mozhlivist ocinki chi vidomi metadani tochno opisuyut faktichni znachennya u vihidnij bazi danih Rozuminnya problem z danimi na rannij stadiyi bud yakogo proyektu z intensivnim vikoristannyam danih shob uniknuti piznih syurpriziv Viyavlennya problem iz danimi na piznomu etapi proyektu mozhe prizvesti do zatrimok i perevitrat Otrimannya korporativnogo pereglyadu usih danih 1 dlya takih cilej yak keruvannya osnovnimi danimi de potribni klyuchovi dani abo upravlinnya danimi dlya pokrashennya yakosti danih Osoblivosti procesu profilyuvannyared Profilyuvannya danih vidnositsya do analizu informaciyi dlya vikoristannya v shovishi danih shob proyasniti strukturu zmist vzayemozv yazki ta pravila otrimannya danih Profilyuvannya dopomagaye ne tilki zrozumiti anomaliyi ta ociniti yakist danih ale j viyaviti zareyestruvati ta ociniti korporativni metadani Rezultat analizu vikoristovuyetsya dlya viznachennya pridatnosti vihidnih sistem kandidativ sho zazvichaj daye osnovu dlya rannogo prijnyattya neprijnyattya rishennya a takozh dlya viyavlennya p rishennya Yak provoditsya profilyuvannya danih Profilyuvannya danih vikoristovuye metodi opisovoyi statistiki taki yak minimum maksimum serednye znachennya moda procentil standartne vidhilennya chastota variaciya agregati taki yak pidrahunok i suma a takozh dodatkovu informaciyu metadanih otrimanu pid chas profilyuvannya danih taku yak tip danih dovzhina diskretni znachennya unikalnist poyava nulovih znachen tipovi shabloni ryadkiv i rozpiznavannya abstraktnih tipiv Potim metadani mozhna vikoristovuvati dlya viyavlennya takih problem yak nedopustimi znachennya orfografichni pomilki vidsutni znachennya rizne predstavlennya znachennya ta dublikati Dlya riznih strukturnih rivniv provodyatsya rizni analizi Napriklad okremi stovpci mozhna profilyuvati okremo shob otrimati rozuminnya chastotnogo rozpodilu riznih znachen tipiv i vikoristannya kozhnogo stovpcya Zalezhnosti vbudovanih znachen mozhna viyaviti v analizi mizh stovpcyami Nareshti nabori znachen sho perekrivayutsya mozhlivo predstavlyayut vidnosini zovnishnogo klyucha mizh sutnostyami mozhna doslidzhuvati v mizhtablichnomu analizi Skladnist obchislen zrostaye pri perehodi vid odnogo stovpcya do odniyeyi tablici ta mizhtablichnogo strukturnogo profilyuvannya Tomu produktivnist ye kriteriyem ocinki instrumentiv profilyuvannya Zastosuvannyared Profilyuvannya danih vikonuyetsya kilka raziv i z riznoyu intensivnistyu protyagom usogo procesu rozrobki shovisha Polegshenu ocinku profilyuvannya provodyat vidrazu pislya viznachennya vihidnih sistem kandidativ i zadovolennya biznes vimog DW BI angl Business Intelligence Data Warehousing Meta pochatkovogo analizu polyagaye v tomu shob z yasuvati chi dostupni pravilni dani na vidpovidnomu rivni detalizaciyi i chi mozhna usunuti anomaliyi Yaksho ce ne tak proekt mozhe buti pripineno Ppered procesom rozmirnogo modelyuvannya vikonuyetsya bilsh pogliblene profilyuvannya shob ociniti sho potribno dlya peretvorennya danih u rozmirnu model Detalne profilyuvannya poshiryuyetsya na proces proektuvannya sistemi ETL shob viznachiti vidpovidni dani dlya viluchennya ta yaki filtri zastosuvati do naboru danih Krim togo profilyuvannya danih mozhe provoditisya v procesi rozrobki shovisha danih pislya togo yak dani buli zavantazheni v promizhnu produkciyu chi vitrini danih Provedennya danih na cih etapah dopomagaye perekonatisya sho ochishennya ta peretvorennya danih vikonano pravilno ta vidpovidno do vimog Perevagi ta prikladired Perevagi profilyuvannya danih polyagayut u pokrashenni yakosti danih skorochenni ciklu realizaciyi velikih proyektiv i pokrashenni rozuminnya danih koristuvachami Viyavlennya biznes znan vbudovanih u sami dani ye odniyeyu iz znachnih perevag profilyuvannya danih Profilyuvannya danih ce odna z najefektivnishih tehnologij dlya pidvishennya tochnosti danih u korporativnih bazah danih dzherelo Div takozhred Profilyuvannya programuvannya Analiz danihPrimitkired Korporativnij informacijnij prostir sutnist ta evolyuciya DOI 10 31617 1 2022 144 06Literaturared Dzhonson Teodor 2009 Profilyuvannya danih U Springer Heidelberg red Enciklopediya sistem baz danih Vudoll Filip Obergofer Martin Borek Oleksandr 2014 Klasifikaciya metodiv ocinki yakosti danih i pokrashennya Mizhnarodnij zhurnal yakosti informaciyi 3 4 298 doi 10 1504 ijiq 2014 068656 Kimbol Ralf ta in 2008 Nabir instrumentiv zhittyevogo ciklu shovisha danih S 376 ISBN 9780470149775 Loshin Devid 2009 Keruvannya osnovnimi danimi Morgan Kaufman S 94 96 ISBN 9780123742254 Loshin Devid 2003 Biznes analitika Posibnik dlya kmitlivogo menedzhera vstup do novih IT Morgan Kaufman S 110 111 ISBN 9781558609167 Ram Erhard Hai Do Hong gruden 2000 Ochishennya danih problemi ta suchasni pidhodi Byuleten tehnichnogo komitetu z inzheneriyi danih IEEE Computer Society 23 Otrimano z https uk wikipedia org wiki Profilyuvannya danih