В статистиці перетворення даних зводиться до застосування детермінованої математичної функції до кожного елементу в наборі даних, тобто, кожна точка z в наборі даних замінюється на трансформоване значення , де f – це якась функція. Перетворення зазвичай застосовуються для того, щоб дані точніше відповідали припущенням процедури статистичного зведення, а також для покращення інтерпретації або вигляду графіків. Майже завжди функція, застосована для трансформації даних, має обернену та єнеперервною. Трансформацію зазвичай застосовують до набору порівняних вимірювань. Наприклад, якщо ми маємо набір даних про доходи населення в якійсь валюті, трансформацію зазвичай виконують за допомогою логарифмічної функції.
Причини трансформації даних
Напрямки перетворення даних (або обґрунтування необхідності застосування трансформації) мають бути наслідком застосованого статистичного аналізу. Наприклад, для визначення 95% довірчого інтервалу середнього значення для генеральної сукупності слід взяти середнє значення вибірки плюс-мінус два стандартних відхилення. Проте, використання саме числа два обумовлюється властивостями нормального розподілу і тому можливе тільки в тому випадку, коли середнє значення вибірки має розподіл близький до нормального. Центральна гранична теорема стверджує, що в багатьох випадках середнє значення вибірки розподілене нормально, якщо розмір вибірки доволі великий. Проте, якщо генеральна сукупність є асиметричною та розмір вибірки є невеликим, апроксимація, запропонована центральною граничною теоремою, є некоректною, а тому отриманий в результаті довірчий інтервал може мати довірчу ймовірність, що відрізняється від заданої. Тому асиметричні дані зазвичай трансформують в симетричний розподіл перш ніж обчислювати довірчі інтервали. Якщо необхідно, отриманий довірчий інтервал трансформують в оригінальну шкалу використовуючи функцію, обернену до функції перетворення.
Також дані трансформують для спрощення візуалізації. Наприклад, візьмемо графік, на якому кожна точка відповідає одній зі світових країн, а осі х та у зображають відповідно кількість населення та розмір території. Якщо зображати такий графік, використовуючи не перетворені дані (тобто, для площі використовувати квадратні кілометри, а для населення – кількість осіб), то більшість країн опиниться в нижньому лівому кутку у вигляді кластеру з крапок. Декілька країн з найбільшою площею та/або кількістю населення будуть розподілені по координатній площині. Якщо використати інші одиниці вимірювання, наприклад, площу виразити в тисячах квадратних кілометрів, а населення – в мільйонах осіб, то графік майже не зміниться. Проте, якщо використати логарифмічну трансформацію даних по обох осях, точки будуть більш рівномірно розподілені по графіку.
Нарешті, дані трансформують для спрощення інтерпретації, навіть якщо статистичний аналіз або візуалізація не використовуються. Припустимо, що нам потрібно порівняти автомобілі за параметром економії пального. Подібні дані зазвичай подаються в таких одиницях вимірювання як «кілометрів на літр пального». Проте, якщо потрібно оцінити кількість додаткового пального що буде необхідна у випадку використання однієї машини або іншої протягом року, дані можна перетворити за допомогою оберненої функції, щоб отримати значення, виражені в літрах на кілометр.
Перетворення даних в регресійному аналізі
Лінійна регресія – статистичний метод, що використовується для визначення відношення залежної змінної від однієї або більше незалежних змінних. Найпростіші регресійні моделі відображають лінійну залежність між математичним сподіванням залежної змінної та окремими незалежними змінними (при фіксованих значеннях інших незалежних змінних). Якщо навіть приблизної лінійної залежності немає, інколи можливо трансформувати або залежну або незалежні змінні в регресійній моделі для виявлення лінійної залежності. Іншим припущенням лінійної регресії є рівність дисперсії для кожного очікуваного значення залежної змінної (гомоскедастичність). Для отримання значущих коефіцієнтів регресії за використання методу найменших квадратів необов’язково, щоб це припущення виконувалось. Проте обчислені довірчі інтервали та тести гіпотез матимуть кращі статистичні властивості, якщо воно виконується. Через це для уникнення проблем пов’язаних з гетероскедастичністю найчастіше використовують один з наступних підходів:
- Використання логарифмічних перетворень даних;
- Зміна специфікації моделі (наприклад, застосування лінійної трансформації незалежної змінної);
- Використання методу зважених найменших квадратів (використання МНК для зважених або трансформованих значень залежної та незалежних змінних);
- Обчислення стандартної похибки, що є робастною до гетероскедастичності.
Приклади трансформацій
Рівняння:
Значення: Зростання X на одиницю викликає зростання Y в середньому на b одиниць.
Рівняння: (Шляхом застосування експоненційної функції до обох сторін рівняння отримаємо: )
Значення: Зростання X на одиницю призводить до зростання Y в середньому на 100b%.
Рівняння:
Значення:Зростання Х на 1% призводить до зростання Y в середньому на b/100.
Рівняння: (Шляхом логарифмування обох сторін рівняння )
Значення:Зростання Х на 1% призводить до зростання Y в середньому на b%.
Типові трансформації
Для позитивних значень даних зазвичай застосовують логарифмічну функцію або квадратний корінь. Обернену трансформацію використовують для ненульових значень даних. Степенева трансформація являє собою групу функцій, що застосовуються в статистиці для трансформації даних зі збереженням рангу. Ці функції параметризуються за допомогою невід’ємного параметру λ, різні значення якого відповідають логарифмічній функції, квадратному кореню, або оберненій функції. Цей параметр можливо статистично оцінити для визначення типу трансформації, яка буде найбільш ефективною. За допомогою такою оцінки можливо також визначити, чи потрібно використовувати трансформацію взагалі. Використання оберненої функції та степеневих трансформацій можливо для даних, які мають позитивні та негативні значення (степенева трансформація буде коректною якщо λ є цілим та непарним). Проте зазвичай в такому випадку до всіх значень даних додають константу щоб отримати набір невід’ємних даних, до якого вже потім застосовують трансформацію.
Типово застосовувати трансформацію у випадках, коли дані мають змінний діапазон (дані з різними очікуваними значеннями мають різну дисперсію). Це властиво для даних по багатьох фізичних та соціальних явищах. Для додання симетричності таким даним використовують степеневі трансформації або логарифмічне перетворення. Прикладами таких трансформацій є [en], [en], та [en].
Використання логарифмічного перетворення також корисно у випадку визначення відношень. Наприклад, потрібно порівняти дві позитивні величини X та Y використовуючи відношення . Тоді, якщо X < Y, відношення лежить в інтервалі (0,1), а коли X > Y, відношення попадає в інтервал (1,∞). Якщо ж застосувати логарифмічне перетворення даних, то відношення у випадку рівності двох величин; а у випадку якщо Х та У не є рівними, логарифмічні відношення та будуть рівновіддаленими від нуля. Якщо значення даних коливаються в межах від 0 до 1, тоді для трансформації можна використати логістичну функцію: вона має діапазон значень (−∞,∞).
Трансформація до нормального розподілу
Багато методів статистичного висновування вимагають використовування нормально розподілених даних.
Нормальність даних можна досягти через степеневу трансформацію. Для оцінки відповідності даних параметрам нормального розподілу зазвичай використовують графічний метод. Одним із методів перевірки нормальності даних є граф - Гістограма. Нормально розподілені данні матимуть вигляд симетричної Гаусової кривої.
Якщо ж Гістограма виявила несиметричність - дані можна спробувати трансформувати одним із наступних методів:
- Логарифмічна трансформація
- Взяти корінь із числа
Якщо стандартне відхилення пропорційно середньому арифметичному, або ж Гістограма показує що данні позитивно асиметричні, може допомогти логарифмічна трансформація. Якщо ж дисперсія пропорційна середньому арифметичному, то підійне коренева трансформація.
Трансформація до рівномірного розподілу
Для набору з n різних значень можна застосувати рангову трансформацію (, де k – порядковий номер Xi у ряді, ранжованому за зростанням), яка приводить дані до рівномірного розподілу. Так само якщо Х – випадкова величина, а F – функція розподілу ймовірностей для Х, то, якщо F має обернену, випадкова величина є рівномірно розподіленою на одиничному інтервалі [0,1]. З рівномірного розподілу можна здійснити трансформацію до будь-якого розподілу за допомогою оберненої функції розподілу ймовірностей. Так, якщо G – обернена функція розподілу ймовірностей, а U - випадкова рівномірно розподілена величина, то для випадкової величини G−1(U) функція G буде функцією розподілу ймовірностей.
Примітки
- Manikandan, S. (1 липня 2010). Data transformation. Journal of Pharmacology and Pharmacotherapeutics (англ.). Т. 1, № 2. с. 126. doi:10.4103/0976-500X.72373. ISSN 0976-500X. PMID 21350629. Процитовано 19 травня 2021.
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом ()
Це незавершена стаття з математики. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
V statistici peretvorennya danih zvoditsya do zastosuvannya determinovanoyi matematichnoyi funkciyi do kozhnogo elementu v nabori danih tobto kozhna tochka z v nabori danih zaminyuyetsya na transformovane znachennya yi f zi displaystyle y i f z i de f ce yakas funkciya Peretvorennya zazvichaj zastosovuyutsya dlya togo shob dani tochnishe vidpovidali pripushennyam proceduri statistichnogo zvedennya a takozh dlya pokrashennya interpretaciyi abo viglyadu grafikiv Majzhe zavzhdi funkciya zastosovana dlya transformaciyi danih maye obernenu ta yeneperervnoyu Transformaciyu zazvichaj zastosovuyut do naboru porivnyanih vimiryuvan Napriklad yaksho mi mayemo nabir danih pro dohodi naselennya v yakijs valyuti transformaciyu zazvichaj vikonuyut za dopomogoyu logarifmichnoyi funkciyi Diagrama rozsiyuvannya v yakij ploshi suverennih derzhav ta zalezhnih teritorij svitu vidkladeno za vertikalnoyu vissyu navproti yihnih naselen za gorizontalnoyu vissyu Verhnya diagrama pokazuye siri dani Na nizhnij diagrami dani yak ploshi tak i naselennya bulo peretvoreno zastosuvannyam logarifmichnoyi funkciyi Prichini transformaciyi danihNapryamki peretvorennya danih abo obgruntuvannya neobhidnosti zastosuvannya transformaciyi mayut buti naslidkom zastosovanogo statistichnogo analizu Napriklad dlya viznachennya 95 dovirchogo intervalu serednogo znachennya dlya generalnoyi sukupnosti slid vzyati serednye znachennya vibirki plyus minus dva standartnih vidhilennya Prote vikoristannya same chisla dva obumovlyuyetsya vlastivostyami normalnogo rozpodilu i tomu mozhlive tilki v tomu vipadku koli serednye znachennya vibirki maye rozpodil blizkij do normalnogo Centralna granichna teorema stverdzhuye sho v bagatoh vipadkah serednye znachennya vibirki rozpodilene normalno yaksho rozmir vibirki dovoli velikij Prote yaksho generalna sukupnist ye asimetrichnoyu ta rozmir vibirki ye nevelikim aproksimaciya zaproponovana centralnoyu granichnoyu teoremoyu ye nekorektnoyu a tomu otrimanij v rezultati dovirchij interval mozhe mati dovirchu jmovirnist sho vidriznyayetsya vid zadanoyi Tomu asimetrichni dani zazvichaj transformuyut v simetrichnij rozpodil persh nizh obchislyuvati dovirchi intervali Yaksho neobhidno otrimanij dovirchij interval transformuyut v originalnu shkalu vikoristovuyuchi funkciyu obernenu do funkciyi peretvorennya Takozh dani transformuyut dlya sproshennya vizualizaciyi Napriklad vizmemo grafik na yakomu kozhna tochka vidpovidaye odnij zi svitovih krayin a osi h ta u zobrazhayut vidpovidno kilkist naselennya ta rozmir teritoriyi Yaksho zobrazhati takij grafik vikoristovuyuchi ne peretvoreni dani tobto dlya ploshi vikoristovuvati kvadratni kilometri a dlya naselennya kilkist osib to bilshist krayin opinitsya v nizhnomu livomu kutku u viglyadi klasteru z krapok Dekilka krayin z najbilshoyu plosheyu ta abo kilkistyu naselennya budut rozpodileni po koordinatnij ploshini Yaksho vikoristati inshi odinici vimiryuvannya napriklad ploshu viraziti v tisyachah kvadratnih kilometriv a naselennya v miljonah osib to grafik majzhe ne zminitsya Prote yaksho vikoristati logarifmichnu transformaciyu danih po oboh osyah tochki budut bilsh rivnomirno rozpodileni po grafiku Nareshti dani transformuyut dlya sproshennya interpretaciyi navit yaksho statistichnij analiz abo vizualizaciya ne vikoristovuyutsya Pripustimo sho nam potribno porivnyati avtomobili za parametrom ekonomiyi palnogo Podibni dani zazvichaj podayutsya v takih odinicyah vimiryuvannya yak kilometriv na litr palnogo Prote yaksho potribno ociniti kilkist dodatkovogo palnogo sho bude neobhidna u vipadku vikoristannya odniyeyi mashini abo inshoyi protyagom roku dani mozhna peretvoriti za dopomogoyu obernenoyi funkciyi shob otrimati znachennya virazheni v litrah na kilometr Peretvorennya danih v regresijnomu analiziLinijna regresiya statistichnij metod sho vikoristovuyetsya dlya viznachennya vidnoshennya zalezhnoyi zminnoyi vid odniyeyi abo bilshe nezalezhnih zminnih Najprostishi regresijni modeli vidobrazhayut linijnu zalezhnist mizh matematichnim spodivannyam zalezhnoyi zminnoyi ta okremimi nezalezhnimi zminnimi pri fiksovanih znachennyah inshih nezalezhnih zminnih Yaksho navit pribliznoyi linijnoyi zalezhnosti nemaye inkoli mozhlivo transformuvati abo zalezhnu abo nezalezhni zminni v regresijnij modeli dlya viyavlennya linijnoyi zalezhnosti Inshim pripushennyam linijnoyi regresiyi ye rivnist dispersiyi dlya kozhnogo ochikuvanogo znachennya zalezhnoyi zminnoyi gomoskedastichnist Dlya otrimannya znachushih koeficiyentiv regresiyi za vikoristannya metodu najmenshih kvadrativ neobov yazkovo shob ce pripushennya vikonuvalos Prote obchisleni dovirchi intervali ta testi gipotez matimut krashi statistichni vlastivosti yaksho vono vikonuyetsya Cherez ce dlya uniknennya problem pov yazanih z geteroskedastichnistyu najchastishe vikoristovuyut odin z nastupnih pidhodiv Vikoristannya logarifmichnih peretvoren danih Zmina specifikaciyi modeli napriklad zastosuvannya linijnoyi transformaciyi nezalezhnoyi zminnoyi Vikoristannya metodu zvazhenih najmenshih kvadrativ vikoristannya MNK dlya zvazhenih abo transformovanih znachen zalezhnoyi ta nezalezhnih zminnih Obchislennya standartnoyi pohibki sho ye robastnoyu do geteroskedastichnosti Prikladi transformacijRivnyannya Y a bX displaystyle Y a bX Znachennya Zrostannya X na odinicyu viklikaye zrostannya Y v serednomu na b odinic Rivnyannya log Y a bX displaystyle log Y a bX Shlyahom zastosuvannya eksponencijnoyi funkciyi do oboh storin rivnyannya otrimayemo Y eaebX displaystyle Y e a e bX Znachennya Zrostannya X na odinicyu prizvodit do zrostannya Y v serednomu na 100b Rivnyannya Y a blog X displaystyle Y a b log X Znachennya Zrostannya H na 1 prizvodit do zrostannya Y v serednomu na b 100 Rivnyannya log Y a blog X displaystyle log Y a b log X Shlyahom logarifmuvannya oboh storin rivnyannya Y eaXb displaystyle Y e a X b Znachennya Zrostannya H na 1 prizvodit do zrostannya Y v serednomu na b Tipovi transformaciyiDlya pozitivnih znachen danih zazvichaj zastosovuyut logarifmichnu funkciyu abo kvadratnij korin Obernenu transformaciyu vikoristovuyut dlya nenulovih znachen danih Stepeneva transformaciya yavlyaye soboyu grupu funkcij sho zastosovuyutsya v statistici dlya transformaciyi danih zi zberezhennyam rangu Ci funkciyi parametrizuyutsya za dopomogoyu nevid yemnogo parametru l rizni znachennya yakogo vidpovidayut logarifmichnij funkciyi kvadratnomu korenyu abo obernenij funkciyi Cej parametr mozhlivo statistichno ociniti dlya viznachennya tipu transformaciyi yaka bude najbilsh efektivnoyu Za dopomogoyu takoyu ocinki mozhlivo takozh viznachiti chi potribno vikoristovuvati transformaciyu vzagali Vikoristannya obernenoyi funkciyi ta stepenevih transformacij mozhlivo dlya danih yaki mayut pozitivni ta negativni znachennya stepeneva transformaciya bude korektnoyu yaksho l ye cilim ta neparnim Prote zazvichaj v takomu vipadku do vsih znachen danih dodayut konstantu shob otrimati nabir nevid yemnih danih do yakogo vzhe potim zastosovuyut transformaciyu Tipovo zastosovuvati transformaciyu u vipadkah koli dani mayut zminnij diapazon dani z riznimi ochikuvanimi znachennyami mayut riznu dispersiyu Ce vlastivo dlya danih po bagatoh fizichnih ta socialnih yavishah Dlya dodannya simetrichnosti takim danim vikoristovuyut stepenevi transformaciyi abo logarifmichne peretvorennya Prikladami takih transformacij ye en en ta en Vikoristannya logarifmichnogo peretvorennya takozh korisno u vipadku viznachennya vidnoshen Napriklad potribno porivnyati dvi pozitivni velichini X ta Y vikoristovuyuchi vidnoshennya XY displaystyle frac X Y Todi yaksho X lt Y vidnoshennya XY displaystyle frac X Y lezhit v intervali 0 1 a koli X gt Y vidnoshennya popadaye v interval 1 Yaksho zh zastosuvati logarifmichne peretvorennya danih to vidnoshennya XY displaystyle frac X Y u vipadku rivnosti dvoh velichin a u vipadku yaksho H ta U ne ye rivnimi logarifmichni vidnoshennya log XY 0 displaystyle log frac X Y 0 ta log YX displaystyle log frac Y X budut rivnoviddalenimi vid nulya Yaksho znachennya danih kolivayutsya v mezhah vid 0 do 1 todi dlya transformaciyi mozhna vikoristati logistichnu funkciyu vona maye diapazon znachen Transformaciya do normalnogo rozpodiluBagato metodiv statistichnogo visnovuvannya vimagayut vikoristovuvannya normalno rozpodilenih danih Normalnist danih mozhna dosyagti cherez stepenevu transformaciyu Dlya ocinki vidpovidnosti danih parametram normalnogo rozpodilu zazvichaj vikoristovuyut grafichnij metod Odnim iz metodiv perevirki normalnosti danih ye graf Gistograma Normalno rozpodileni danni matimut viglyad simetrichnoyi Gausovoyi krivoyi Yaksho zh Gistograma viyavila nesimetrichnist dani mozhna sprobuvati transformuvati odnim iz nastupnih metodiv Logarifmichna transformaciya Yi log Xi displaystyle Yi log Xi Vzyati korin iz chisla Yi Xi displaystyle ce Yi sqrt Xi Yaksho standartne vidhilennya proporcijno serednomu arifmetichnomu abo zh Gistograma pokazuye sho danni pozitivno asimetrichni mozhe dopomogti logarifmichna transformaciya Yaksho zh dispersiya proporcijna serednomu arifmetichnomu to pidijne koreneva transformaciya Transformaciya do rivnomirnogo rozpodiluDlya naboru z n riznih znachen X1 Xn displaystyle X 1 X n mozhna zastosuvati rangovu transformaciyu Yi k displaystyle Y i k de k poryadkovij nomer Xi u ryadi ranzhovanomu za zrostannyam yaka privodit dani do rivnomirnogo rozpodilu Tak samo yaksho H vipadkova velichina a F funkciya rozpodilu jmovirnostej dlya H to yaksho F maye obernenu vipadkova velichina U F X displaystyle U F X ye rivnomirno rozpodilenoyu na odinichnomu intervali 0 1 Z rivnomirnogo rozpodilu mozhna zdijsniti transformaciyu do bud yakogo rozpodilu za dopomogoyu obernenoyi funkciyi rozpodilu jmovirnostej Tak yaksho G obernena funkciya rozpodilu jmovirnostej a U vipadkova rivnomirno rozpodilena velichina to dlya vipadkovoyi velichini G 1 U funkciya G bude funkciyeyu rozpodilu jmovirnostej PrimitkiManikandan S 1 lipnya 2010 Data transformation Journal of Pharmacology and Pharmacotherapeutics angl T 1 2 s 126 doi 10 4103 0976 500X 72373 ISSN 0976 500X PMID 21350629 Procitovano 19 travnya 2021 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Ce nezavershena stattya z matematiki Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi