У статистиці категорі́йна змі́нна (англ. categorical variable) — це [en], яка може набувати одне з обмеженого та, зазвичай, фіксованого числа можливих значень, відносячи кожен індивідуалізований об'єкт або іншу одиницю дослідження до певної групи, або [en], на підставі деякої якісної властивості. В інформатиці та деяких галузях математики категорійні змінні називають переліками або переліковими типами. Часто (хоча й не в цій статті) кожне з можливих значень категорійної змінної називають рі́внем (англ. level). Розподіл ймовірності, пов'язаний із випадковою категорійною змінною, називають категорійним розподілом.
Категорі́йні да́ні (англ. categorical data) — це [en], який складається з категорійних змінних, або з даних, які було перетворено на такий вигляд, наприклад, таких, як згруповані дані. Конкретніше, категорійні дані можуть походити зі спостережень якісних даних, які підсумовуються як кількості або перехресні табулювання, або зі спостережень кількісних даних, згрупованих в межах заданих проміжків. Часто чисто категорійні дані підсумовують у вигляді таблиці спряженості. Проте, зокрема при розгляді аналізу даних, є звичним застосовувати термін «категорійні дані» до наборів даних, які, містячи деякі категорійні змінні, можуть також містити й не категорійні змінні.
Категорійну змінну, що може набувати рівно двох значень, називають [en], або дихотомі́чною змі́нною (англ. dichotomous variable); важливим окремим випадком є [en]. Категорійні змінні з понад двома можливими значеннями називають політомі́чними змі́нними (англ. polytomous variable); категорійні змінні часто вважають політомічними, якщо не вказано інше. [en] розглядає неперервні дані так, якби вони були би категорійними. [en] розглядає неперервні дані або політомічні змінні так, якби вони були би двійковими змінними. Регресійний аналіз часто розглядає категорійне членство за допомогою однієї або більше кількісних [en].
Приклади категорійних змінних
Приклади значень, які може бути представлено в категорійній змінній:
- Група крові особи: A, B, AB або O.
- Політична партія, за яку міг би голосувати виборець, наприклад, «Християнські демократи», «Соціал-демократи», «Партія зелених» тощо.
- Тип гірської породи: магматичний, осадовий або метаморфічний.
- Ідентичність певного слова (наприклад, у моделі мови): Один з V можливих варіантів вибору для словника розміру V.
Позначення
Для простоти у статистичній обробці категорійним змінним можуть призначати числові індекси, наприклад, від 1 до K для K-позиційної категорійної змінної (тобто, для змінної, яка може виражати рівно K можливих значень). В цілому, однак, ці числа є довільними, і не мають ніякої значущості поза простим забезпеченням зручної мітки для певного значення. Іншими словами, значення в категорійній змінній існують на номінальній шкалі: кожне з них представляє логічно окреме поняття, вони не обов'язково можуть бути змістовно впорядкованими, і ними неможливо іншим чином маніпулювати так, як можливо було би маніпулювати числами. Натомість, чинними операціями є еквівалентність, входження до множини, та інші операції, пов'язані з множинами.
В результаті центральна тенденція набору категорійних змінних задається його модою; ані середнє значення, ані медіану визначити неможливо. Наприклад, маючи множину людей, ми можемо розглядати набір категорійних змінних, які відповідають їхнім прізвищам. Ми можемо розглядати такі операції, як еквівалентність (чи мають дві людини одне й те саме прізвище), входження до множини (чи має особа прізвище із заданого переліку), підрахунок (скільки людей мають задане прізвище), або знаходження моди (яке з прізвищ трапляється найчастіше). Проте, ми не можемо змістовно обчислити «суму» Ковальчук + Яковенко, або запитати, чи є Ковальчук «меншим» або «більшим», ніж Яковенко. В результаті, ми не в змозі змістовно запитати, що в множині прізвищ є «середнім прізвищем» (середнє значення), або «прізвищем, найближчим до середини» (медіаною).
Зверніть увагу, що при цьому ігнорується поняття [en], яке є характеристикою, властивою не прізвищам як таким, а способові, яким ми будуємо мітки. Наприклад, якщо ми запишемо прізвища латинкою, і розглядатимемо латинський порядок літер, ми можемо отримати відмінний результат при обчисленні «Ковальчук < Яковенко», ніж якби ми писати ці прізвища звичною кирилицею; а якщо ми запишемо прізвища китайськими символами, ми не зможемо змістовно обчислити «Ковальчук < Яковенко» взагалі, оскільки для цих символів послідовне впорядкування не визначено. Проте якщо ми розглядатимемо прізвища як написані, наприклад, кирилицею, і визначимо впорядкування відповідно до стандартного абеткового порядку, то ми дієво перетворимо їх на порядкові змінні, визначені на порядковій шкалі.
Число можливих значень
Категорійні випадкові змінні, як правило, описують статистично категорійним розподілом, який дозволяє довільний K-позиційній категорійний змінній бути вираженою окремими ймовірностями, вказаними для кожного з K можливих виходів. Такі полі-категорійні категорійні змінні часто аналізують із застосуванням поліноміального розподілу, який підраховує частоту кожного можливого поєднання кількостей траплянь різних категорій. Регресійний аналіз категорійних виходів здійснюють шляхом [en], [en], або пов'язаного з цим типу моделі.
Категорійні змінні, які мають лише два можливих виходи (наприклад, «так» і «ні», або «успіх» і «невдача»), відомі як двійкові змінні (або змінні Бернуллі). Через їхню важливість, ці змінні часто розглядають як окрему категорію, з окремим розподілом (розподілом Бернуллі) та окремими регресійними моделями (логістична регресія, [en] тощо). В результаті, термін «категорійна змінна» часто відводять для випадків з 3 або більше виходами, які іноді позначують терміном багатопозиційна змінна (англ. multi-way variable), на противагу до двійкової змінної.
Також можливо розглядати такі категорійні змінні, в яких кількість категорій не фіксується заздалегідь. Як приклад, для категорійної змінної, яка описує певне слово, ми можемо не знати заздалегідь розміру словника, і ми хотіли би дозволити можливість трапляння слів, яких ми ще не бачили. Стандартні статистичні моделі, як ті, що залучають категорійний розподіл та [en], передбачають, що число категорій є відомим завчасно, і зміна числа категорій на льоту є мудрованою. В таких випадках мусять застосовуватися передовіші методики. Прикладом є [en], який припадає на галузь [en]. В такому випадку логічно передбачають, що існує нескінченне число категорій, але в будь-який момент часу більшість з них (фактично, всі, крім скінченного числа) ніколи не було бачено. Всі формули виражають у термінах числа вже фактично побачених категорій, замість (нескінченного) загального числа потенційних категорій, які можуть існувати, і створюють методи для послідовного уточнювання статистичних розподілів, включно з додаванням «нових» категорій.
Категорійні змінні та регресія
Категорійні змінні являють собою якісний метод маркування даних (наприклад, являють собою категорії, або входження до груп). Вони можуть включатися як незалежні змінні до регресійного аналізу, або як залежні змінні до логістичної регресії чи [en], але мусять бути перетворені на кількісні дані для уможливлення аналізу даних. Це робиться за рахунок застосування систем кодування. Аналіз проводиться таким чином, що кодуються лише g - 1 груп (де g є числом груп). Це зводить до мінімуму надмірність, у той же час представляючи повний набір даних, оскільки від кодування всіх g груп не було би отримано жодної додаткової інформації: наприклад, при кодуванні статі (де g = 2: чоловіча та жіноча), якщо ми кодуємо лише жінок, всі решта обов'язково будуть чоловіками. В загальному випадку не кодують ту групу, яка становить найменший інтерес.
Існують три основні системи кодування, які зазвичай застосовують в аналізі категорійних змінних у регресії: фіктивне кодування (англ. dummy coding), впли́вове кодування (англ. effects coding) та контрастове кодування (англ. contrast coding). Рівняння регресії набуває вигляду Y = bX + a, де b є градієнтом, і задає вагу, емпірично призначену пояснювальникові, X є пояснювальною змінною, а a є [en], і ці значення набувають різного сенсу в залежності від системи кодування, яку застосовують. Вибір системи кодування не впливає на статистики F та R2. Проте кожен обирає систему кодування на основі порівняння, яке його цікавить, оскільки інтерпретації значень b різнитимуться.
Фіктивне кодування
Фіктивне кодування (англ. dummy coding) застосовують тоді, коли мається на увазі контрольна, або порівняльна група. Внаслідок цього дані однієї групи аналізують відносно порівняльної групи: a представляє середнє значення порівняльної групи, а b є різницею між середнім значенням [en] та середнім значенням контрольної групи. Передбачається, що для визначення придатної контрольної групи має бути виконано три критерії: ця група повинна бути міцно усталеною (наприклад, не повинна бути категорією «інші»), повинні бути логічні підстави для обрання цієї групи як порівняльної (наприклад, передбачається, що ця група має найвищий бал за залежною змінною), і, нарешті, розмір вибірки цієї групи повинен бути істотним, а не малим, у порівнянні з іншими групами.
У фіктивному кодуванні еталонній групі призначують значення 0 для кожної кодової змінної, групі, яка становить інтерес для порівняння з еталонною, призначують значення 1 для встановленої для неї кодової змінної, а всім іншим групам для цієї конкретної кодової змінної призначують 0.
Значення b повинні інтерпретуватися так, що експериментальна група порівнюється з контрольною. Тому встановлення від'ємного значення b спричинить те, що експериментальна група матиме нижчі бали за залежною змінною, ніж контрольна група. Щоби проілюструвати це, припустімо, що ми вимірюємо оптимізм серед кількох національностей, і ми вирішили, що французи слугуватимуть придатною контрольною групою. Якщо ми порівнюємо їх з італійцями, і спостерігаємо від'ємне значення b, це підкаже, що італійці в середньому отримують нижчі бали за оптимізмом.
Наступна таблиця є прикладом фіктивного кодування з французами як контрольною групою, і C1, C2 та C3 відповідно як кодами для італійців, німців та інших (ані французів, ані італійців, ані німців):
Національність | C1 | C2 | C3 |
Французи | 0 | 0 | 0 |
Італійці | 1 | 0 | 0 |
Німці | 0 | 1 | 0 |
Інші | 0 | 0 | 1 |
Впли́вове кодування
У системі впли́вового кодування (англ. effects coding) дані аналізують шляхом порівняння однієї групи з усіма іншими групами. На відміну від фіктивного кодування, контрольна група відсутня. Натомість, порівняння здійснюють за поєднанням середніх значень усіх груп (тепер a є [en]). Таким чином, дані розглядають не по відношенню до іншої групи, а скоріше по відношенню до генерального середнього.
Впли́вове кодування може бути або зваженим, або незваженим. Зважене впли́вове кодування є просто підрахунком зваженого генерального середнього, який бере таким чином до уваги розмір вибірки кожної зі змінних. Це є найдоречнішим у ситуаціях, коли вибірка є репрезентативною для досліджуваної генеральної сукупності. Незважене впли́вове кодування є найдоречнішим у ситуаціях, коли відмінності в розмірах вибірки є результатом випадкових чинників. Для кожного з них інтерпретація b є різною: у незваженому впли́вовому кодуванні b є різницею між середнім значенням експериментальної групи та генеральним середнім, тоді як у зваженій ситуації воно є середнім експериментальної групи мінус зважене генеральне середнє.
У впли́вовому кодуванні ми кодуємо групу, яка становить інтерес, через 1, так само, як ми робили би це для фіктивного кодування. Принциповою відмінністю є те, що ми встановлюємо код -1 для тієї групи, яка становить найменший інтерес. Оскільки ми продовжуємо використовувати схему кодування g - 1, то групою, яка насправді не продукуватиме даних, буде -1, отже, це засвідчує той факт, що та група цікавить нас найменше. Всім іншим групам призначують код 0.
Значення b повинні інтерпретуватися таким чином, що експериментальна група порівнюється з поєднанням середніх значень усіх груп (або зваженим генеральним середнім у випадку зваженого впли́вового кодування). Тому встановлення від'ємного b спричинятиме те, що кодована група матиме нижчий бал, ніж середнє значення всіх груп за залежною змінною. Використовуючи наш попередній приклад балів оптимізму серед національностей, якщо розгляданою групою є італійці, то спостереження від'ємного значення b означатиме, що вони отримують нижчий бал оптимізму.
Наступна таблиця є прикладом впли́вового кодування, в якому групою, що становить найменший інтерес, є Інші.
Національність | C1 | C2 | C3 |
Французи | 0 | 0 | 1 |
Італійці | 1 | 0 | 0 |
Німці | 0 | 1 | 0 |
Інші | −1 | −1 | −1 |
Контрастове кодування
Контрастова система кодування (англ. contrast coding) дозволяє дослідникові безпосередньо ставити конкретні питання. Замість того, щоби система кодування диктувала здійснювані порівняння (тобто, порівняння з контрольною групою, як у фіктивному кодуванні, або з усіма групами, як у впли́вовому), можна розробити унікальне порівняння, яке живить конкретні дослідницькі питання. Ця пристосована гіпотеза зазвичай ґрунтується на попередній теорії та/або дослідженні. Пропоновані гіпотези зазвичай є такими: по-перше, є центральна гіпотеза, яка постулює велику відмінність між двома наборами груп; друга гіпотеза припускає, що відмінності між групами в межах кожного з наборів є малими. За допомогою своїх апріорі сфокусованих гіпотез контрастове кодування може приводити до збільшення потужності статистичної перевірки у порівнянні з менш спрямованими попередніми системами кодування.
Деякі відмінності проявляються при порівнянні наших апріорних коефіцієнтів між дисперсійним аналізом та регресією. На відміну від застосування в дисперсійному аналізі, в якому дослідник на власний розсуд вирішує, чи обирати ортогональні значення коефіцієнтів, чи не ортогональні, в регресії важливо, щоби значення коефіцієнтів, які призначують у контрастовому кодуванні, були ортогональними. Крім того, в регресії значення коефіцієнтів мусять бути або в дробовому, або в десятковому вигляді. Вони не можуть набувати проміжкових значень.
Побудову контрастових кодів обмежено трьома правилами:
- Сума контрастових коефіцієнтів за кожною кодовою змінною мусить дорівнювати нулеві.
- Різниця між сумою додатних коефіцієнтів та сумою від'ємних коефіцієнтів повинна дорівнювати 1.
- Кодові змінні повинні бути ортогональними.
Порушення правила 2 продукує точні значення R2 та F, указуючи, що ми досягли би тих самих висновків про те, чи існує значна різниця, чи ні; проте, ми більше не можемо інтерпретувати значення b як середню різницю.
Щоби проілюструвати побудову контрастових кодів, розгляньмо наступну таблицю. Коефіцієнти було обрано так, щоби проілюструвати наші апріорні гіпотези: Гіпотеза 1: Французи та італійці отримуватимуть вищі бали за оптимізм, ніж німці (французи = +0.33, італійці = +0.33, німці = -0.66). Це ілюструється за допомогою призначення однакових коефіцієнтів категоріям французів та італійців, і відмінного коефіцієнту німцям. Призначені знаки показують напрямок взаємовідносин (отже, надання німцям від'ємного знаку показує, що їхні гіпотетичні бали оптимізму є нижчими). Гіпотеза 2: Очікується, що французи та італійці відрізняються за своїми балами оптимізму (французи = +0.50, італійці = -0.50, німці = 0). Тут призначення нульового значення німцям показує, що вони не включаються до аналізу цієї гіпотези. Знов-таки, призначені знаки показують пропоноване взаємовідношення.
Національність | C1 | C2 |
Французи | +0.33 | +0.50 |
Італійці | +0.33 | −0.50 |
Німці | −0.66 | 0 |
Безглузде кодування
Безглузде кодування (англ. nonsense coding) трапляється тоді, коли замість призначуваних «0», «1» та «-1», бачених у попередніх системах кодування, застосовують випадкові значення. Незважаючи на те, що воно виробляє правильні середні значення для змінних, застосувати безглузде кодування не радять, оскільки воно вестиме до неінтерпретовних статистичних результатів.
Вкладання
Вклада́ння (англ. embeddings) — це кодування категорійних значень у дійснозначні (а іноді й комплекснозначні) векторні простори високої розмірності, зазвичай таким чином, що «подібним» значенням призначують «подібні» вектори, або за критерієм якогось іншого типу, що робить ці вектори зручними для відповідного застосування. Поширеним особливим випадком є вкладання слів, у яких можливими значеннями категорійної змінної є слова мови, і словам з близькими значеннями мають призначуватися подібні вектори.
Взаємодії
Взаємодія може виникати при розгляді взаємозв'язку між трьома або більше змінними, і описує ситуацію, в якій одночасний вплив двох змінних на третю не є адитивним. Взаємодії з категорійними змінними можуть виникати двома шляхами: або як взаємодії між категорійними та категорійними змінними, або як взаємодії між категорійними та неперервними змінними.
Взаємодії між категорійними та категорійними змінними
Цей тип взаємодії виникає тоді, коли ми маємо дві категорійні змінні. Для дослідження цього типу взаємодії здійснюють кодування із застосуванням системи, що найвідповідніше спрямовується на гіпотезу дослідника. Добуток кодів видає взаємодію. Потім можна обчислити значення b, і визначити, чи є взаємодія значною.
Взаємодії між категорійними та неперервними змінними
Аналіз простих градієнтів (англ. simple slopes analysis) є поширеною при застосуванні в регресії ретроспективною перевіркою, аналогічною до простого впли́вового аналізу в дисперсійному аналізі, яку використовують для аналізу взаємодій. У цій перевірці ми розглядаємо прості градієнти однієї незалежної змінної при певних значеннях іншої незалежної змінної. Така перевірка не обмежується застосуванням із неперервними змінними, і може застосовуватися також тоді, коли незалежна змінна є категорійною. Ми не можемо просто вибирати значення для зондування взаємодії, як ми робили би це у випадку неперервної змінної, через номінальну природу даних (наприклад, у неперервному випадку можливо аналізувати дані на високому, середньому та низькому рівнях, призначаючи 1 стандартне відхилення вище середнього значення, на середньому значенні, і на одне стандартне відхилення нижче середнього значення відповідно). В нашому категорійному випадку для дослідження простих градієнтів ми будемо застосовувати рівняння простої регресії для кожної з груп. Існує поширена практика стандартизування або центрування змінних, щоби робити дані інтерпретовнішими в аналізі простих градієнтів; проте категорійні змінні ніколи не повинні ані стандартизуватися, ані центруватися. Цю перевірку можливо застосовувати з усіма системами кодування.
Див. також
- Шкала
- [en]
- Якісні дані
- [en]
- Унітарний код
Примітки
- Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). (вид. 2nd). New York: [en]. ISBN . Архів оригіналу за 9 лютого 2005. Процитовано 17 квітня 2016. (англ.)
- Cohen, J.; Cohen, P.; West, S. G.; & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioural sciences (3rd ed.). New York, NY: Routledge. (англ.)
- Hardy, Melissa (1993). Regression with dummy variables. Newbury Park, CA: Sage. (англ.)
Література
- Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980. (англ.)
- ; ; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN . MR 0381130. (англ.)
- Christensen, Ronald (1997). Log-linear models and logistic regression. Springer Texts in Statistics (вид. Second). New York: Springer-Verlag. с. xvi+483. ISBN . MR 1633357. (англ.)
- [en]. Visualizing categorical data [ 12 липня 2019 у Wayback Machine.]. SAS Institute, 2000. (англ.)
- (2002). (PDF) (вид. updated electronic version of the (University of Aalborg) 3rd (1989)). Архів оригіналу (PDF) за 30 квітня 2020. Процитовано 17 квітня 2016. (англ.)
- NIST/SEMATEK (2008) Handbook of Statistical Methods [ 27 лютого 2009 у Wayback Machine.] (англ.)
- Agresti, Alan. Categorical Data Analysis - 3rd ed., 2013 (англ.)
- Azen, Razia. Categorical Data Analysis for the Behavioral and Social Sciences, 2011 (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici kategori jna zmi nna angl categorical variable ce en yaka mozhe nabuvati odne z obmezhenogo ta zazvichaj fiksovanogo chisla mozhlivih znachen vidnosyachi kozhen individualizovanij ob yekt abo inshu odinicyu doslidzhennya do pevnoyi grupi abo en na pidstavi deyakoyi yakisnoyi vlastivosti V informatici ta deyakih galuzyah matematiki kategorijni zminni nazivayut perelikami abo perelikovimi tipami Chasto hocha j ne v cij statti kozhne z mozhlivih znachen kategorijnoyi zminnoyi nazivayut ri vnem angl level Rozpodil jmovirnosti pov yazanij iz vipadkovoyu kategorijnoyu zminnoyu nazivayut kategorijnim rozpodilom Kategori jni da ni angl categorical data ce en yakij skladayetsya z kategorijnih zminnih abo z danih yaki bulo peretvoreno na takij viglyad napriklad takih yak zgrupovani dani Konkretnishe kategorijni dani mozhut pohoditi zi sposterezhen yakisnih danih yaki pidsumovuyutsya yak kilkosti abo perehresni tabulyuvannya abo zi sposterezhen kilkisnih danih zgrupovanih v mezhah zadanih promizhkiv Chasto chisto kategorijni dani pidsumovuyut u viglyadi tablici spryazhenosti Prote zokrema pri rozglyadi analizu danih ye zvichnim zastosovuvati termin kategorijni dani do naboriv danih yaki mistyachi deyaki kategorijni zminni mozhut takozh mistiti j ne kategorijni zminni Kategorijnu zminnu sho mozhe nabuvati rivno dvoh znachen nazivayut en abo dihotomi chnoyu zmi nnoyu angl dichotomous variable vazhlivim okremim vipadkom ye en Kategorijni zminni z ponad dvoma mozhlivimi znachennyami nazivayut politomi chnimi zmi nnimi angl polytomous variable kategorijni zminni chasto vvazhayut politomichnimi yaksho ne vkazano inshe en rozglyadaye neperervni dani tak yakbi voni buli bi kategorijnimi en rozglyadaye neperervni dani abo politomichni zminni tak yakbi voni buli bi dvijkovimi zminnimi Regresijnij analiz chasto rozglyadaye kategorijne chlenstvo za dopomogoyu odniyeyi abo bilshe kilkisnih en Prikladi kategorijnih zminnihPrikladi znachen yaki mozhe buti predstavleno v kategorijnij zminnij Grupa krovi osobi A B AB abo O Politichna partiya za yaku mig bi golosuvati viborec napriklad Hristiyanski demokrati Social demokrati Partiya zelenih tosho Tip girskoyi porodi magmatichnij osadovij abo metamorfichnij Identichnist pevnogo slova napriklad u modeli movi Odin z V mozhlivih variantiv viboru dlya slovnika rozmiru V PoznachennyaDlya prostoti u statistichnij obrobci kategorijnim zminnim mozhut priznachati chislovi indeksi napriklad vid 1 do K dlya K pozicijnoyi kategorijnoyi zminnoyi tobto dlya zminnoyi yaka mozhe virazhati rivno K mozhlivih znachen V cilomu odnak ci chisla ye dovilnimi i ne mayut niyakoyi znachushosti poza prostim zabezpechennyam zruchnoyi mitki dlya pevnogo znachennya Inshimi slovami znachennya v kategorijnij zminnij isnuyut na nominalnij shkali kozhne z nih predstavlyaye logichno okreme ponyattya voni ne obov yazkovo mozhut buti zmistovno vporyadkovanimi i nimi nemozhlivo inshim chinom manipulyuvati tak yak mozhlivo bulo bi manipulyuvati chislami Natomist chinnimi operaciyami ye ekvivalentnist vhodzhennya do mnozhini ta inshi operaciyi pov yazani z mnozhinami V rezultati centralna tendenciya naboru kategorijnih zminnih zadayetsya jogo modoyu ani serednye znachennya ani medianu viznachiti nemozhlivo Napriklad mayuchi mnozhinu lyudej mi mozhemo rozglyadati nabir kategorijnih zminnih yaki vidpovidayut yihnim prizvisham Mi mozhemo rozglyadati taki operaciyi yak ekvivalentnist chi mayut dvi lyudini odne j te same prizvishe vhodzhennya do mnozhini chi maye osoba prizvishe iz zadanogo pereliku pidrahunok skilki lyudej mayut zadane prizvishe abo znahodzhennya modi yake z prizvish traplyayetsya najchastishe Prote mi ne mozhemo zmistovno obchisliti sumu Kovalchuk Yakovenko abo zapitati chi ye Kovalchuk menshim abo bilshim nizh Yakovenko V rezultati mi ne v zmozi zmistovno zapitati sho v mnozhini prizvish ye serednim prizvishem serednye znachennya abo prizvishem najblizhchim do seredini medianoyu Zvernit uvagu sho pri comu ignoruyetsya ponyattya en yake ye harakteristikoyu vlastivoyu ne prizvisham yak takim a sposobovi yakim mi buduyemo mitki Napriklad yaksho mi zapishemo prizvisha latinkoyu i rozglyadatimemo latinskij poryadok liter mi mozhemo otrimati vidminnij rezultat pri obchislenni Kovalchuk lt Yakovenko nizh yakbi mi pisati ci prizvisha zvichnoyu kiriliceyu a yaksho mi zapishemo prizvisha kitajskimi simvolami mi ne zmozhemo zmistovno obchisliti Kovalchuk lt Yakovenko vzagali oskilki dlya cih simvoliv poslidovne vporyadkuvannya ne viznacheno Prote yaksho mi rozglyadatimemo prizvisha yak napisani napriklad kiriliceyu i viznachimo vporyadkuvannya vidpovidno do standartnogo abetkovogo poryadku to mi diyevo peretvorimo yih na poryadkovi zminni viznacheni na poryadkovij shkali Chislo mozhlivih znachenKategorijni vipadkovi zminni yak pravilo opisuyut statistichno kategorijnim rozpodilom yakij dozvolyaye dovilnij K pozicijnij kategorijnij zminnij buti virazhenoyu okremimi jmovirnostyami vkazanimi dlya kozhnogo z K mozhlivih vihodiv Taki poli kategorijni kategorijni zminni chasto analizuyut iz zastosuvannyam polinomialnogo rozpodilu yakij pidrahovuye chastotu kozhnogo mozhlivogo poyednannya kilkostej traplyan riznih kategorij Regresijnij analiz kategorijnih vihodiv zdijsnyuyut shlyahom en en abo pov yazanogo z cim tipu modeli Kategorijni zminni yaki mayut lishe dva mozhlivih vihodi napriklad tak i ni abo uspih i nevdacha vidomi yak dvijkovi zminni abo zminni Bernulli Cherez yihnyu vazhlivist ci zminni chasto rozglyadayut yak okremu kategoriyu z okremim rozpodilom rozpodilom Bernulli ta okremimi regresijnimi modelyami logistichna regresiya en tosho V rezultati termin kategorijna zminna chasto vidvodyat dlya vipadkiv z 3 abo bilshe vihodami yaki inodi poznachuyut terminom bagatopozicijna zminna angl multi way variable na protivagu do dvijkovoyi zminnoyi Takozh mozhlivo rozglyadati taki kategorijni zminni v yakih kilkist kategorij ne fiksuyetsya zazdalegid Yak priklad dlya kategorijnoyi zminnoyi yaka opisuye pevne slovo mi mozhemo ne znati zazdalegid rozmiru slovnika i mi hotili bi dozvoliti mozhlivist traplyannya sliv yakih mi she ne bachili Standartni statistichni modeli yak ti sho zaluchayut kategorijnij rozpodil ta en peredbachayut sho chislo kategorij ye vidomim zavchasno i zmina chisla kategorij na lotu ye mudrovanoyu V takih vipadkah musyat zastosovuvatisya peredovishi metodiki Prikladom ye en yakij pripadaye na galuz en V takomu vipadku logichno peredbachayut sho isnuye neskinchenne chislo kategorij ale v bud yakij moment chasu bilshist z nih faktichno vsi krim skinchennogo chisla nikoli ne bulo bacheno Vsi formuli virazhayut u terminah chisla vzhe faktichno pobachenih kategorij zamist neskinchennogo zagalnogo chisla potencijnih kategorij yaki mozhut isnuvati i stvoryuyut metodi dlya poslidovnogo utochnyuvannya statistichnih rozpodiliv vklyuchno z dodavannyam novih kategorij Kategorijni zminni ta regresiyaKategorijni zminni yavlyayut soboyu yakisnij metod markuvannya danih napriklad yavlyayut soboyu kategoriyi abo vhodzhennya do grup Voni mozhut vklyuchatisya yak nezalezhni zminni do regresijnogo analizu abo yak zalezhni zminni do logistichnoyi regresiyi chi en ale musyat buti peretvoreni na kilkisni dani dlya umozhlivlennya analizu danih Ce robitsya za rahunok zastosuvannya sistem koduvannya Analiz provoditsya takim chinom sho koduyutsya lishe g 1 grup de g ye chislom grup Ce zvodit do minimumu nadmirnist u toj zhe chas predstavlyayuchi povnij nabir danih oskilki vid koduvannya vsih g grup ne bulo bi otrimano zhodnoyi dodatkovoyi informaciyi napriklad pri koduvanni stati de g 2 cholovicha ta zhinocha yaksho mi koduyemo lishe zhinok vsi reshta obov yazkovo budut cholovikami V zagalnomu vipadku ne koduyut tu grupu yaka stanovit najmenshij interes Isnuyut tri osnovni sistemi koduvannya yaki zazvichaj zastosovuyut v analizi kategorijnih zminnih u regresiyi fiktivne koduvannya angl dummy coding vpli vove koduvannya angl effects coding ta kontrastove koduvannya angl contrast coding Rivnyannya regresiyi nabuvaye viglyadu Y bX a de b ye gradiyentom i zadaye vagu empirichno priznachenu poyasnyuvalnikovi X ye poyasnyuvalnoyu zminnoyu a a ye en i ci znachennya nabuvayut riznogo sensu v zalezhnosti vid sistemi koduvannya yaku zastosovuyut Vibir sistemi koduvannya ne vplivaye na statistiki F ta R2 Prote kozhen obiraye sistemu koduvannya na osnovi porivnyannya yake jogo cikavit oskilki interpretaciyi znachen b riznitimutsya Fiktivne koduvannya Fiktivne koduvannya angl dummy coding zastosovuyut todi koli mayetsya na uvazi kontrolna abo porivnyalna grupa Vnaslidok cogo dani odniyeyi grupi analizuyut vidnosno porivnyalnoyi grupi a predstavlyaye serednye znachennya porivnyalnoyi grupi a b ye rizniceyu mizh serednim znachennyam en ta serednim znachennyam kontrolnoyi grupi Peredbachayetsya sho dlya viznachennya pridatnoyi kontrolnoyi grupi maye buti vikonano tri kriteriyi cya grupa povinna buti micno ustalenoyu napriklad ne povinna buti kategoriyeyu inshi povinni buti logichni pidstavi dlya obrannya ciyeyi grupi yak porivnyalnoyi napriklad peredbachayetsya sho cya grupa maye najvishij bal za zalezhnoyu zminnoyu i nareshti rozmir vibirki ciyeyi grupi povinen buti istotnim a ne malim u porivnyanni z inshimi grupami U fiktivnomu koduvanni etalonnij grupi priznachuyut znachennya 0 dlya kozhnoyi kodovoyi zminnoyi grupi yaka stanovit interes dlya porivnyannya z etalonnoyu priznachuyut znachennya 1 dlya vstanovlenoyi dlya neyi kodovoyi zminnoyi a vsim inshim grupam dlya ciyeyi konkretnoyi kodovoyi zminnoyi priznachuyut 0 Znachennya b povinni interpretuvatisya tak sho eksperimentalna grupa porivnyuyetsya z kontrolnoyu Tomu vstanovlennya vid yemnogo znachennya b sprichinit te sho eksperimentalna grupa matime nizhchi bali za zalezhnoyu zminnoyu nizh kontrolna grupa Shobi proilyustruvati ce pripustimo sho mi vimiryuyemo optimizm sered kilkoh nacionalnostej i mi virishili sho francuzi sluguvatimut pridatnoyu kontrolnoyu grupoyu Yaksho mi porivnyuyemo yih z italijcyami i sposterigayemo vid yemne znachennya b ce pidkazhe sho italijci v serednomu otrimuyut nizhchi bali za optimizmom Nastupna tablicya ye prikladom fiktivnogo koduvannya z francuzami yak kontrolnoyu grupoyu i C1 C2 ta C3 vidpovidno yak kodami dlya italijciv nimciv ta inshih ani francuziv ani italijciv ani nimciv Nacionalnist C1 C2 C3 Francuzi 0 0 0 Italijci 1 0 0 Nimci 0 1 0 Inshi 0 0 1 Vpli vove koduvannya U sistemi vpli vovogo koduvannya angl effects coding dani analizuyut shlyahom porivnyannya odniyeyi grupi z usima inshimi grupami Na vidminu vid fiktivnogo koduvannya kontrolna grupa vidsutnya Natomist porivnyannya zdijsnyuyut za poyednannyam serednih znachen usih grup teper a ye en Takim chinom dani rozglyadayut ne po vidnoshennyu do inshoyi grupi a skorishe po vidnoshennyu do generalnogo serednogo Vpli vove koduvannya mozhe buti abo zvazhenim abo nezvazhenim Zvazhene vpli vove koduvannya ye prosto pidrahunkom zvazhenogo generalnogo serednogo yakij bere takim chinom do uvagi rozmir vibirki kozhnoyi zi zminnih Ce ye najdorechnishim u situaciyah koli vibirka ye reprezentativnoyu dlya doslidzhuvanoyi generalnoyi sukupnosti Nezvazhene vpli vove koduvannya ye najdorechnishim u situaciyah koli vidminnosti v rozmirah vibirki ye rezultatom vipadkovih chinnikiv Dlya kozhnogo z nih interpretaciya b ye riznoyu u nezvazhenomu vpli vovomu koduvanni b ye rizniceyu mizh serednim znachennyam eksperimentalnoyi grupi ta generalnim serednim todi yak u zvazhenij situaciyi vono ye serednim eksperimentalnoyi grupi minus zvazhene generalne serednye U vpli vovomu koduvanni mi koduyemo grupu yaka stanovit interes cherez 1 tak samo yak mi robili bi ce dlya fiktivnogo koduvannya Principovoyu vidminnistyu ye te sho mi vstanovlyuyemo kod 1 dlya tiyeyi grupi yaka stanovit najmenshij interes Oskilki mi prodovzhuyemo vikoristovuvati shemu koduvannya g 1 to grupoyu yaka naspravdi ne produkuvatime danih bude 1 otzhe ce zasvidchuye toj fakt sho ta grupa cikavit nas najmenshe Vsim inshim grupam priznachuyut kod 0 Znachennya b povinni interpretuvatisya takim chinom sho eksperimentalna grupa porivnyuyetsya z poyednannyam serednih znachen usih grup abo zvazhenim generalnim serednim u vipadku zvazhenogo vpli vovogo koduvannya Tomu vstanovlennya vid yemnogo b sprichinyatime te sho kodovana grupa matime nizhchij bal nizh serednye znachennya vsih grup za zalezhnoyu zminnoyu Vikoristovuyuchi nash poperednij priklad baliv optimizmu sered nacionalnostej yaksho rozglyadanoyu grupoyu ye italijci to sposterezhennya vid yemnogo znachennya b oznachatime sho voni otrimuyut nizhchij bal optimizmu Nastupna tablicya ye prikladom vpli vovogo koduvannya v yakomu grupoyu sho stanovit najmenshij interes ye Inshi Nacionalnist C1 C2 C3 Francuzi 0 0 1 Italijci 1 0 0 Nimci 0 1 0 Inshi 1 1 1 Kontrastove koduvannya Kontrastova sistema koduvannya angl contrast coding dozvolyaye doslidnikovi bezposeredno staviti konkretni pitannya Zamist togo shobi sistema koduvannya diktuvala zdijsnyuvani porivnyannya tobto porivnyannya z kontrolnoyu grupoyu yak u fiktivnomu koduvanni abo z usima grupami yak u vpli vovomu mozhna rozrobiti unikalne porivnyannya yake zhivit konkretni doslidnicki pitannya Cya pristosovana gipoteza zazvichaj gruntuyetsya na poperednij teoriyi ta abo doslidzhenni Proponovani gipotezi zazvichaj ye takimi po pershe ye centralna gipoteza yaka postulyuye veliku vidminnist mizh dvoma naborami grup druga gipoteza pripuskaye sho vidminnosti mizh grupami v mezhah kozhnogo z naboriv ye malimi Za dopomogoyu svoyih apriori sfokusovanih gipotez kontrastove koduvannya mozhe privoditi do zbilshennya potuzhnosti statistichnoyi perevirki u porivnyanni z mensh spryamovanimi poperednimi sistemami koduvannya Deyaki vidminnosti proyavlyayutsya pri porivnyanni nashih apriornih koeficiyentiv mizh dispersijnim analizom ta regresiyeyu Na vidminu vid zastosuvannya v dispersijnomu analizi v yakomu doslidnik na vlasnij rozsud virishuye chi obirati ortogonalni znachennya koeficiyentiv chi ne ortogonalni v regresiyi vazhlivo shobi znachennya koeficiyentiv yaki priznachuyut u kontrastovomu koduvanni buli ortogonalnimi Krim togo v regresiyi znachennya koeficiyentiv musyat buti abo v drobovomu abo v desyatkovomu viglyadi Voni ne mozhut nabuvati promizhkovih znachen Pobudovu kontrastovih kodiv obmezheno troma pravilami Suma kontrastovih koeficiyentiv za kozhnoyu kodovoyu zminnoyu musit dorivnyuvati nulevi Riznicya mizh sumoyu dodatnih koeficiyentiv ta sumoyu vid yemnih koeficiyentiv povinna dorivnyuvati 1 Kodovi zminni povinni buti ortogonalnimi Porushennya pravila 2 produkuye tochni znachennya R2 ta F ukazuyuchi sho mi dosyagli bi tih samih visnovkiv pro te chi isnuye znachna riznicya chi ni prote mi bilshe ne mozhemo interpretuvati znachennya b yak serednyu riznicyu Shobi proilyustruvati pobudovu kontrastovih kodiv rozglyanmo nastupnu tablicyu Koeficiyenti bulo obrano tak shobi proilyustruvati nashi apriorni gipotezi Gipoteza 1 Francuzi ta italijci otrimuvatimut vishi bali za optimizm nizh nimci francuzi 0 33 italijci 0 33 nimci 0 66 Ce ilyustruyetsya za dopomogoyu priznachennya odnakovih koeficiyentiv kategoriyam francuziv ta italijciv i vidminnogo koeficiyentu nimcyam Priznacheni znaki pokazuyut napryamok vzayemovidnosin otzhe nadannya nimcyam vid yemnogo znaku pokazuye sho yihni gipotetichni bali optimizmu ye nizhchimi Gipoteza 2 Ochikuyetsya sho francuzi ta italijci vidriznyayutsya za svoyimi balami optimizmu francuzi 0 50 italijci 0 50 nimci 0 Tut priznachennya nulovogo znachennya nimcyam pokazuye sho voni ne vklyuchayutsya do analizu ciyeyi gipotezi Znov taki priznacheni znaki pokazuyut proponovane vzayemovidnoshennya Nacionalnist C1 C2 Francuzi 0 33 0 50 Italijci 0 33 0 50 Nimci 0 66 0 Bezgluzde koduvannya Bezgluzde koduvannya angl nonsense coding traplyayetsya todi koli zamist priznachuvanih 0 1 ta 1 bachenih u poperednih sistemah koduvannya zastosovuyut vipadkovi znachennya Nezvazhayuchi na te sho vono viroblyaye pravilni seredni znachennya dlya zminnih zastosuvati bezgluzde koduvannya ne radyat oskilki vono vestime do neinterpretovnih statistichnih rezultativ Vkladannya Vklada nnya angl embeddings ce koduvannya kategorijnih znachen u dijsnoznachni a inodi j kompleksnoznachni vektorni prostori visokoyi rozmirnosti zazvichaj takim chinom sho podibnim znachennyam priznachuyut podibni vektori abo za kriteriyem yakogos inshogo tipu sho robit ci vektori zruchnimi dlya vidpovidnogo zastosuvannya Poshirenim osoblivim vipadkom ye vkladannya sliv u yakih mozhlivimi znachennyami kategorijnoyi zminnoyi ye slova movi i slovam z blizkimi znachennyami mayut priznachuvatisya podibni vektori Vzayemodiyi Vzayemodiya mozhe vinikati pri rozglyadi vzayemozv yazku mizh troma abo bilshe zminnimi i opisuye situaciyu v yakij odnochasnij vpliv dvoh zminnih na tretyu ne ye aditivnim Vzayemodiyi z kategorijnimi zminnimi mozhut vinikati dvoma shlyahami abo yak vzayemodiyi mizh kategorijnimi ta kategorijnimi zminnimi abo yak vzayemodiyi mizh kategorijnimi ta neperervnimi zminnimi Vzayemodiyi mizh kategorijnimi ta kategorijnimi zminnimi Cej tip vzayemodiyi vinikaye todi koli mi mayemo dvi kategorijni zminni Dlya doslidzhennya cogo tipu vzayemodiyi zdijsnyuyut koduvannya iz zastosuvannyam sistemi sho najvidpovidnishe spryamovuyetsya na gipotezu doslidnika Dobutok kodiv vidaye vzayemodiyu Potim mozhna obchisliti znachennya b i viznachiti chi ye vzayemodiya znachnoyu Vzayemodiyi mizh kategorijnimi ta neperervnimi zminnimi Analiz prostih gradiyentiv angl simple slopes analysis ye poshirenoyu pri zastosuvanni v regresiyi retrospektivnoyu perevirkoyu analogichnoyu do prostogo vpli vovogo analizu v dispersijnomu analizi yaku vikoristovuyut dlya analizu vzayemodij U cij perevirci mi rozglyadayemo prosti gradiyenti odniyeyi nezalezhnoyi zminnoyi pri pevnih znachennyah inshoyi nezalezhnoyi zminnoyi Taka perevirka ne obmezhuyetsya zastosuvannyam iz neperervnimi zminnimi i mozhe zastosovuvatisya takozh todi koli nezalezhna zminna ye kategorijnoyu Mi ne mozhemo prosto vibirati znachennya dlya zonduvannya vzayemodiyi yak mi robili bi ce u vipadku neperervnoyi zminnoyi cherez nominalnu prirodu danih napriklad u neperervnomu vipadku mozhlivo analizuvati dani na visokomu serednomu ta nizkomu rivnyah priznachayuchi 1 standartne vidhilennya vishe serednogo znachennya na serednomu znachenni i na odne standartne vidhilennya nizhche serednogo znachennya vidpovidno V nashomu kategorijnomu vipadku dlya doslidzhennya prostih gradiyentiv mi budemo zastosovuvati rivnyannya prostoyi regresiyi dlya kozhnoyi z grup Isnuye poshirena praktika standartizuvannya abo centruvannya zminnih shobi robiti dani interpretovnishimi v analizi prostih gradiyentiv prote kategorijni zminni nikoli ne povinni ani standartizuvatisya ani centruvatisya Cyu perevirku mozhlivo zastosovuvati z usima sistemami koduvannya Div takozhShkala en Yakisni dani en Unitarnij kodPrimitkiYates Daniel S Moore David S Starnes Daren S 2003 vid 2nd New York en ISBN 978 0 7167 4773 4 Arhiv originalu za 9 lyutogo 2005 Procitovano 17 kvitnya 2016 angl Cohen J Cohen P West S G amp Aiken L S 2003 Applied multiple regression correlation analysis for the behavioural sciences 3rd ed New York NY Routledge angl Hardy Melissa 1993 Regression with dummy variables Newbury Park CA Sage angl LiteraturaAndersen Erling B 1980 Discrete Statistical Models with Social Science Applications North Holland 1980 angl Holland P W 1975 Discrete Multivariate Analysis Theory and Practice MIT Press ISBN 978 0 262 02113 5 MR 0381130 angl Christensen Ronald 1997 Log linear models and logistic regression Springer Texts in Statistics vid Second New York Springer Verlag s xvi 483 ISBN 0 387 98247 7 MR 1633357 angl en Visualizing categorical data 12 lipnya 2019 u Wayback Machine SAS Institute 2000 angl 2002 PDF vid updated electronic version of the University of Aalborg 3rd 1989 Arhiv originalu PDF za 30 kvitnya 2020 Procitovano 17 kvitnya 2016 angl NIST SEMATEK 2008 Handbook of Statistical Methods 27 lyutogo 2009 u Wayback Machine angl Agresti Alan Categorical Data Analysis 3rd ed 2013 angl Azen Razia Categorical Data Analysis for the Behavioral and Social Sciences 2011 angl