В теорії ймовірностей та статистиці категорі́йний розпо́діл (англ. categorical distribution, що також називають «узагальненим розподілом Бернуллі», англ. multinoulli distribution або, менш точно, «дискретним розподілом») — це розподіл імовірності, що описує можливі результати випадкової події, яка може мати один із K можливих наслідків, із окремим зазначенням ймовірності кожного з наслідків. Не обов'язково мається на увазі існування якогось впорядкування цих результатів, але для зручності опису цього розподілу часто додають числові мітки (наприклад, від 1 до K). Зауважте, що K-вимірний категорійний розподіл є найзагальнішим розподілом над подією з K можливими наслідками; будь-який інший дискретний розподіл над простором елементарних подій розміру K є окремим випадком. Параметри, що вказують імовірності кожного з можливих наслідків, обмежено лише тим, що кожен з них мусить бути в діапазоні від 0 до 1, і всі вони в сумі мусять давати 1.
Категорійний | |
---|---|
Параметри | кількість категорій (ціле число) ймовірності подій () |
Носій функції | |
Розподіл імовірностей | (1) |
Функція розподілу ймовірностей (cdf) | |
Середнє | , це є середнім значенням дужок Айверсона , а не середнім значенням |
Медіана | таке що та |
Мода | таке що |
Дисперсія | |
Твірна функція моментів (mgf) | |
Характеристична функція | де |
Генератриса (pgf) | для |
Категорійний розподіл є узагальненням розподілу Бернуллі для категорійної випадкової змінної, тобто для дискретної змінної з понад двома можливими наслідками, такої як підкидання грального кубика.
Термінологія
Часом для позначення категорійного розподілу використовують термін «дискретний розподіл». Проте, по-правильному, він позначує не одне певне сімейство розподілів, а загальний клас розподілів.
Зауважте, що в деяких галузях, таких як машинне навчання та обробка природної мови, категорійний та поліноміальний розподіли зливаються, і є звичним говорити про «поліноміальний розподіл», коли в дійсності мається на увазі категорійний. Це неточне використання походить з того факту, що іноді зручніше описувати наслідок категорійного розподілу як вектор «один із K» (вектор, один з елементів якого містить 1, а всі інші елементи містять 0), аніж як ціле число на проміжку від 1 до K; у цьому вигляді категорійний розподіл є рівнозначним поліноміальному розподілові з єдиним спостереженням (див. нижче).
Проте злиття категорійного та поліноміального розподілів може призводити до проблем. Наприклад, у [en], який зазвичай з'являється в моделях обробки природної мови (хоча й не завжди під цією назвою) як результат [en], де розподіли Діріхле спадають в ієрархічній баєсовій моделі, дуже важливо відрізняти категорійний від поліноміального. Спільний розподіл одних і тих же змінних з одним і тим же поліноміальним розподілом Діріхле має два різні вигляди в залежності від того, чи він характеризується як розподіл, область визначення якого є над окремими категорійними вузлами, чи над кількостями вузлів поліноміального стилю в кожній конкретній категорії (подібно до розрізнення між набором вузлів з розподілами Бернуллі та єдиним вузлом із біноміальним розподілом). Обидва вигляди мають дуже схожі функції маси ймовірності (ФМІ, англ. PMF), що обидві посилаються на кількості вузлів поліноміального стилю в категорії. Проте ФМІ поліноміального стилю має додатковий поліноміальний коефіцієнт, який у ФМІ категорійного стилю є сталою, яка дорівнює 1. Змішування цих двох може легко привести до неправильних результатів в умовах, у яких цей додатковий коефіцієнт не є сталим по відношенню до досліджуваних розподілів. Цей коефіцієнт часто є сталим у повних умовних виразах, які застосовуються у вибірці Ґіббса та оптимальних розподілах у варіаційних методах.
Введення
Категорійний розподіл є дискретним розподілом імовірності, простір елементарних подій якого є набором k окремо ідентифікованих елементів. Він є узагальненням розподілу Бернуллі для категорійної випадкової змінної.
В одному з формулювань цього розподілу як простір елементарних подій береться скінченна послідовність цілих чисел. Конкретні цілі числа, що використовуються як мітки, не є важливими; ними можуть бути {0, 1, ..., k-1}, або {1, 2, ..., k}, або будь-який інший довільний набір значень. В наступних описах ми використовуємо для зручності {1, 2, ..., k}, хоча це й розходиться з угодою для розподілу Бернуллі, яка використовує {0, 1}. В цьому випадку функцією маси ймовірності f є
де , представляє ймовірність побачити елемент , а .
Іншим формулюванням, яке видається складнішим, але полегшує математичні перетворення, є наступне, яке застосовує дужки Айверсона:
де обчислюється як 1, якщо , а інакше як 0. В цього формулювання є деякі переваги, наприклад:
- Воно спрощує запис функції правдоподібності набору незалежних однаково розподілених категорійних змінних.
- Воно зв'язує категорійний розподіл зі спорідненим поліноміальним розподілом.
- Воно показує, чому розподіл Діріхле є спряженим апріорним категорійного розподілу, і дозволяє обчислювати апостеріорний розподіл параметрів.
Ще одне формулювання робить явний зв'язок між категорійним та поліноміальним розподілами шляхом розгляду категорійного розподілу як окремого випадку поліноміального розподілу, в якому параметр n поліноміального розподілу (кількість елементів вибірки) зафіксовано на рівні 1. В цьому формулюванні простір елементарних подій може розглядатися як множина закодованих як 1-із-K випадкових векторів x розмірності k, які мають таку властивість, що рівно один елемент кожного з них має значення 1, а всі інші мають значення 0. Конкретний елемент, який має значення 1, вказує, яку категорію було обрано. Функцією маси ймовірності f у цьому формулюванні є
де представляє ймовірність побачити елемент , а . Це є формулюванням, прийнятим [en].
Властивості
- Цей розподіл повністю задається ймовірностями, пов'язаними з кожним із чисел i: , i = 1,...,k, де . Ці можливі ймовірності в точності є стандартним -вимірним симплексом; для k = 2 це вироджується до можливих імовірностей розподілу Бернуллі, що є 1-симплексом,
- Цей розподіл є окремим випадком «багатовимірного розподілу Бернуллі», в якому в точності одна з k змінних 0-1 набуває значення одиниці.
- Нехай буде реалізацією з категоричного розподілу. Визначмо випадковий вектор Y як складений з елементів
- де I є індикаторною функцією. Тоді Y має розподіл, який є окремим випадком поліноміального розподілу з параметром . Сума таких незалежних та однаково розподілених змінних Y, побудована з категорійного розподілу з параметром , є поліноміально розподіленою з параметрами та .
- Спряженим апріорним розподілом категорійного розподілу є розподіл Діріхле. Подальше обговорення див. розділом нижче.
- Достатньою статистикою з n незалежних спостережень є набір кількостей (або, рівнозначно, пропорція) спостережень у кожній категорії, де загальна кількість спроб (=n) є фіксованою.
- Індикаторна функція того, що спостереження матиме значення i, рівнозначна функції дужок Айверсона або функції дельти Кронекера , має розподіл Бернуллі з параметром .
Зі спряженим апріорним
У баєсовій статистиці розподіл Діріхле є спряженим апріорним розподілом категорійного розподілу (а також і поліноміального розподілу). Це означає, що в моделі, яка складається з точок даних, які мають категорійний розподіл з невідомим вектором параметрів p, і (в стандартному баєсовому стилі) ми обираємо розгляд цього параметру як випадкової змінної, і даємо йому апріорний розподіл, визначений із застосуванням розподілу Діріхле, то апостеріорний розподіл цього параметру, після включення знання, отриманого зі спостережених даних, також є розподілом Діріхле. Інтуїтивно зрозуміло, що в такому випадку, виходячи з того, що ми знаємо про параметр до спостереження точки даних, ми потім можемо уточнити наше знання на основі цієї точки даних, у кінцевому підсумку з новим розподілом такого ж вигляду, як і старий. Це означає, що ми можемо послідовно уточнювати наше знання про параметр, включаючи нові спостереження по одному за раз, не впадаючи в математичні ускладнення.
Формально це може бути виражено наступним чином. Якщо задано модель
то виконується наступне:
Це співвідношення використовується в баєсовій статистиці для оцінки параметру p, що лежить в основі категорійного розподілу, при заданій сукупності N зразків. Інтуїтивно зрозуміло, що ми можемо розглядати [en] вектор α як [en], тобто як представлення кількості спостережень у кожній з категорій, що ми вже бачили. Тоді ми просто додаємо кількості для всіх нових спостережень (вектор c), щоби вивести апостеріорний розподіл.
Подальша інтуїція виходить з математичного сподівання апостеріорного розподілу (див. статтю про розподіл Діріхле):
Це каже, що очікувана ймовірність побачити категорію i серед різних дискретних розподілів, породжених апостеріорним розподілом, просто дорівнює пропорції випадків цієї категорії, в дійсності побачених у даних, включно із псевдолічильниками в апріорному розподілі. Це підсилює інтуїтивний сенс: Якщо, наприклад, є три можливі категорії, й ми бачили категорію 1 у наших спостережених даних 40% часу, то ми також очікуватимемо в середньому бачити категорію 1 40% часу і в апостеріорному розподілі.
(Зауважте, що ця інтуїція ігнорує вплив апріорного розподілу. Крім того, важливо мати на увазі, що апостеріорне є розподілом над розподілами. Слід пам'ятати, що апостеріорний розподіл в цілому говорить нам, що ми знаємо про досліджуваний параметр, і в цьому випадку сам параметр є дискретним розподілом імовірності, тобто справжнім категорійним розподілом, який породив наші дані. Наприклад, якщо ми бачили 3 категорії у співвідношенні 40:5:55 у наших спостережуваних даних, тоді, нехтуючи впливом апріорного розподілу, ми очікуватимемо, що істинний параметр — тобто, істинний розподіл, який лежить в основі наших спостережених даних, які він породив — матиме середнє значення (0.40,0.05,0.55), яке насправді є тим, про що нам говорить апостеріорний розподіл. Проте справжнім розподілом в дійсності міг би бути (0.35,0.07,0.58), або (0.42,0.04,0.54), або багато інших близьких можливостей. Ступінь вплутаної тут невизначеності визначається дисперсією апостеріорного, яка контролюється загальним числом спостережень — що більше даних ми спостерігаємо, то менше невизначеності про істинний параметр.)
(Формально, апріорний параметр слід розглядати як такий, що представляє апріорних спостережень категорії . Тоді уточнений апостеріорний параметр представляє апостеріорних спостережень. Це відображає той факт, що розподіл Діріхле з має абсолютно пласку форму — по суті, рівномірний розподіл над симплексом можливих значень p. Логічно, що плаский розподіл такого виду представляє повне незнання, що відповідає відсутності спостережень будь-якого виду. Проте математичне уточнення апостеріорного працює добре, якщо ми ігноруємо член , і просто думаємо про вектор α як такий, що прямо представляє набір псевдолічильників. Крім того, така практика дозволяє уникати проблеми інтерпретування значень , менших за 1.)
Оцінка МАІ
Оцінка апостеріорного максимуму параметра p в наведеній вище моделі є просто (модою апостеріорного розподілу Діріхле), тобто,
У багатьох практичних застосуваннях єдиним способом гарантувати умову є встановити для всіх i.
Відособлена правдоподібність
У наведеній вище моделі відособлена правдоподібність спостережень (тобто спільний розподіл спостережень зі знеособленим апріорним параметром) є [en]:
Цей розподіл відіграє важливу роль в ієрархічних баєсових моделях, оскільки при виконанні висновування над такими моделями із застосуванням таких методів, як [en] або [en], апріорні розподіли Діріхле часто знеособлюються. Докладніше див. у [en].
Передбачуваний апостеріорний розподіл
[en] нового спостереження в наведеній вище моделі є розподіл, який матиме нове спостереження при заданому наборі з N категорійних спостережень. Як показано в статті про [en], він має дуже простий вигляд:
Зверніть увагу на різні взаємозв'язки між цією формулою, та попередніми:
- Передбачувана апостеріорна ймовірність побачити певну категорію є такою ж, як і відносна пропорція попередніх спостережень у цій категорії (включно із псевдо-спостереженнями в апріорному). Це має логічний сенс — інтуїтивно ми очікуватимемо побачити певну категорію відповідно до частоти, з якою її вже було спостережувано.
- Передбачувана апостеріорна ймовірність є такою ж, як і математичне сподівання апостеріорного розподілу. Це пояснюється докладніше нижче.
- В результаті цю формулу може бути виражено просто як «передбачувана апостеріорна ймовірність побачити категорію є пропорційною до загального спостереженого числа цієї категорії», або як «очікуване число категорії є таким самим, як і загальне спостережене число цієї категорії», де «спостережене число» включає псевдо-спостереження апріорного.
Причина рівнозначності між передбачуваною апостеріорною ймовірністю та математичним сподіванням апостеріорного розподілу p стає очевидною, щойно ми переглядаємо наведену вище формулу. Як описано в статті про [en], формула передбачуваної апостеріорної ймовірності має вигляд математичного сподівання, взятого по відношенню до апостеріорного розподілу:
Вирішальним рядком вище є третій. Другий випливає безпосередньо з визначення математичного сподівання. Третій рядок є особливим для категорійного розподілу, і випливає з того факту що, конкретно в категорійному розподілі, математичне сподівання побачити певне значення i безпосередньо вказується пов'язаним параметром pi. Четвертий рядок є просто переформулюванням третього в іншому записі, із застосуванням наведеного вище запису математичного сподівання, взятого по відношенню до апостеріорного розподілу параметрів.
Звернімо також увагу, що відбувається у сценарії, в якому ми спостережуємо точки даних одна за одною, і кожного разу розглядаємо їхню передбачувану ймовірність перед спостереженням точки даних та уточненням апостеріорного. Для будь-якої заданої точки даних ймовірність того, що ця точка набуде певної категорії, залежить від кількості точок даних, що вже є в цій категорії. Якщо категорія має високу частоту трапляння, тоді нові точки правдоподібніше приєднаються до цієї категорії — збагачуючи далі ту саму категорію. Цей тип сценарію часто називають моделлю переважного приєднання (або «багатий стає багатшим»). Це моделює багато процесів реального світу, і в таких випадках вибори, зроблені кількома першими точками даних, мають дуже великий вплив на решту точок даних.
Умовний апостеріорний розподіл
У [en] нам зазвичай треба витягати з умовних розподілів у багатозмінних баєсових мережах, де кожну змінну обумовлено всіма іншими. В мережах, які включають категорійні змінні з апріорними Діріхле (наприклад, [en], та моделях, які включають сумішеві складові), розподіли Діріхле часто «спадають» (знеособлюють) з мережі, що вводить залежності між різними категорійними вузлами, які залежать від заданого апріорного (зокрема, їх спільний розподіл є [en]). Однією з причин робити це є те, що в такому випадку розподіл одного категорійного вузла для заданих інших є в точності [en] решти вузлів.
Тобто, для набору вузлів , якщо ми позначимо вузли під питанням через , а решту — через , то
де є числом вузлів, що мають категорію i, серед інших вузлів, крім вузла n.
Вибірка
Найпоширеніший спосіб вибірки з категорійного розподілу використовує один з типів [en]:
Припустімо, що нам дано розподіл, виражений як «пропорційно до» якогось виразу, з невідомою [en]. Тоді, перш ніж брати якісь зразки, ми готуємо деякі значення в такий спосіб:
- Обчислити не нормоване значення розподілу для кожної з категорій.
- Підсумувати їх, і поділити кожне значення на цю суму, щоби [en] їх.
- Накласти якийсь порядок на категорії (наприклад, індексом, який проходить значення від 1 до k, де k є числом категорій).
- Перетворити ці значення на кумулятивну функцію розподілу (КФР) заміною кожного значення сумою всіх попередніх значень. Це може бути здійснено за час O(k). Отриманим в результаті значенням для першої категорії буде 0.
Потім, кожного разу, як потрібно вибрати значення:
- Взяти рівномірно розподілене число між 0 та 1.
- Визначити найбільше число в КФР, чиє значення є меншим або рівним щойно обраному числу. Це може здійснюватися за час O(log(k)), бінарним пошуком.
- Повернути категорію, яка відповідає цьому значенню КФР.
Якщо потрібно вибирати багато значень з одного й того ж категорійного розподілу, то ефективнішим може бути наступний підхід. Він вибирає n зразків за час O(n) (за припущення, що наближення O(1) використовується для вибору значень з біноміального розподілу).
функція вибрати_категорійно(n) // де n є числом зразків, які потрібно вибрати з категорійного розподілу r = 1 s = 0 для i від 1 до k // де k є числом категорій v = вибрати з біноміального розподілу (n, p[i] / r) // де p[i] є ймовірністю категорії i для j від 1 до v z[s++] = i // де z є масивом, у якому зберігаються результати n = n - v r = r - p[i] перемішати (випадково перевпорядкувати) елементи в z повернути z
Вибірка через розподіл Гумбеля
В машинному навчанні є типовим параметризувати категорійний розподіл через необмежене представлення в , складові якого задаються як
де є будь-якою дійсною сталою. Маючи це представлення, можна відтворити із застосуванням нормованої експоненційної функції, з чого потім можна робити вибірку за описаних вище методик. Проте існує пряміший метод вибірки, який використовує вибірку з [en]. Нехай будуть k незалежними виборами зі стандартного розподілу Гумбеля, тоді
буде вибіркою з бажаного категорійного розподілу. (Якщо є вибіркою зі стандартного рівномірного розподілу, то є вибіркою зі стандартного розподілу Гумбеля.)
Див. також
Пов'язані розподіли
Примітки
- Проте Бішоп не використовує явно термін «категорійний розподіл».
Виноски
- Murphy, K. P. (2012). Machine learning: a probabilistic perspective, p. 35. MIT press. . (англ.)
- Minka, T. (2003) Bayesian inference, entropy and the multinomial distribution [ 4 березня 2016 у Wayback Machine.]. Technical report Microsoft Research. (англ.)
- Minka, T. (2003), op. cit. Minka uses the Kronecker delta function, similar to but less general than the Iverson bracket. (англ.)
- [en] (2006) Pattern Recognition and Machine Learning, Springer. (англ.)
- Johnson, N.L., Kotz, S., Balakrishnan, N. (1997) Discrete Multivariate Distributions, Wiley. (p.105) (англ.)
- Agresti, A., An Introduction to Categorical Data Analysis, Wiley-Interscience, 2007, , pp. 25 (англ.)
- Adams, Ryan. . Архів оригіналу за 6 березня 2016. Процитовано 3 квітня 2016. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
V teoriyi jmovirnostej ta statistici kategori jnij rozpo dil angl categorical distribution sho takozh nazivayut uzagalnenim rozpodilom Bernulli angl multinoulli distribution abo mensh tochno diskretnim rozpodilom ce rozpodil imovirnosti sho opisuye mozhlivi rezultati vipadkovoyi podiyi yaka mozhe mati odin iz K mozhlivih naslidkiv iz okremim zaznachennyam jmovirnosti kozhnogo z naslidkiv Ne obov yazkovo mayetsya na uvazi isnuvannya yakogos vporyadkuvannya cih rezultativ ale dlya zruchnosti opisu cogo rozpodilu chasto dodayut chislovi mitki napriklad vid 1 do K Zauvazhte sho K vimirnij kategorijnij rozpodil ye najzagalnishim rozpodilom nad podiyeyu z K mozhlivimi naslidkami bud yakij inshij diskretnij rozpodil nad prostorom elementarnih podij rozmiru K ye okremim vipadkom Parametri sho vkazuyut imovirnosti kozhnogo z mozhlivih naslidkiv obmezheno lishe tim sho kozhen z nih musit buti v diapazoni vid 0 do 1 i vsi voni v sumi musyat davati 1 KategorijnijParametri k gt 0 displaystyle k gt 0 kilkist kategorij cile chislo p 1 p k displaystyle p 1 ldots p k jmovirnosti podij S p i 1 displaystyle Sigma p i 1 Nosij funkciyi x 1 k displaystyle x in 1 dots k Rozpodil imovirnostej 1 p x i p i displaystyle p x i p i 2 p x p 1 x 1 p k x k displaystyle p x p 1 x 1 cdots p k x k 3 p x x 1 p 1 x k p k displaystyle p x x 1 cdot p 1 dots x k cdot p k x i displaystyle x i ye duzhkami AjversonaFunkciya rozpodilu jmovirnostej cdf 0 dlya x lt 1 j 1 i p j dlya x i i 1 1 dlya x k displaystyle begin cases 0 amp text dlya x lt 1 sum j 1 i p j amp text dlya x in i i 1 1 amp text dlya x geq k end cases Serednye E x i p i displaystyle operatorname E x i p i ce ye serednim znachennyam duzhok Ajversona x i displaystyle x i a ne serednim znachennyam x displaystyle x Mediana i displaystyle i take sho j 1 i 1 p j 0 5 displaystyle sum j 1 i 1 p j leq 0 5 ta j 1 i p j 0 5 displaystyle sum j 1 i p j geq 0 5 Moda i displaystyle i take sho p i max p 1 p k displaystyle p i max p 1 ldots p k Dispersiya V a r x i p i 1 p i displaystyle textstyle mathrm Var x i p i 1 p i C o v x i x j p i p j i j displaystyle textstyle mathrm Cov x i x j p i p j i neq j Tvirna funkciya momentiv mgf i 1 k p i e t i displaystyle sum i 1 k p i e t i Harakteristichna funkciya j 1 k p j e i t j displaystyle sum j 1 k p j e it j de i 2 1 displaystyle i 2 1 Generatrisa pgf i 1 k p i z i displaystyle sum i 1 k p i z i dlya z 1 z k C k displaystyle z 1 ldots z k in mathbb C k Kategorijnij rozpodil ye uzagalnennyam rozpodilu Bernulli dlya kategorijnoyi vipadkovoyi zminnoyi tobto dlya diskretnoyi zminnoyi z ponad dvoma mozhlivimi naslidkami takoyi yak pidkidannya gralnogo kubika TerminologiyaChasom dlya poznachennya kategorijnogo rozpodilu vikoristovuyut termin diskretnij rozpodil Prote po pravilnomu vin poznachuye ne odne pevne simejstvo rozpodiliv a zagalnij klas rozpodiliv Zauvazhte sho v deyakih galuzyah takih yak mashinne navchannya ta obrobka prirodnoyi movi kategorijnij ta polinomialnij rozpodili zlivayutsya i ye zvichnim govoriti pro polinomialnij rozpodil koli v dijsnosti mayetsya na uvazi kategorijnij Ce netochne vikoristannya pohodit z togo faktu sho inodi zruchnishe opisuvati naslidok kategorijnogo rozpodilu yak vektor odin iz K vektor odin z elementiv yakogo mistit 1 a vsi inshi elementi mistyat 0 anizh yak cile chislo na promizhku vid 1 do K u comu viglyadi kategorijnij rozpodil ye rivnoznachnim polinomialnomu rozpodilovi z yedinim sposterezhennyam div nizhche Prote zlittya kategorijnogo ta polinomialnogo rozpodiliv mozhe prizvoditi do problem Napriklad u en yakij zazvichaj z yavlyayetsya v modelyah obrobki prirodnoyi movi hocha j ne zavzhdi pid ciyeyu nazvoyu yak rezultat en de rozpodili Dirihle spadayut v iyerarhichnij bayesovij modeli duzhe vazhlivo vidriznyati kategorijnij vid polinomialnogo Spilnij rozpodil odnih i tih zhe zminnih z odnim i tim zhe polinomialnim rozpodilom Dirihle maye dva rizni viglyadi v zalezhnosti vid togo chi vin harakterizuyetsya yak rozpodil oblast viznachennya yakogo ye nad okremimi kategorijnimi vuzlami chi nad kilkostyami vuzliv polinomialnogo stilyu v kozhnij konkretnij kategoriyi podibno do rozriznennya mizh naborom vuzliv z rozpodilami Bernulli ta yedinim vuzlom iz binomialnim rozpodilom Obidva viglyadi mayut duzhe shozhi funkciyi masi jmovirnosti FMI angl PMF sho obidvi posilayutsya na kilkosti vuzliv polinomialnogo stilyu v kategoriyi Prote FMI polinomialnogo stilyu maye dodatkovij polinomialnij koeficiyent yakij u FMI kategorijnogo stilyu ye staloyu yaka dorivnyuye 1 Zmishuvannya cih dvoh mozhe legko privesti do nepravilnih rezultativ v umovah u yakih cej dodatkovij koeficiyent ne ye stalim po vidnoshennyu do doslidzhuvanih rozpodiliv Cej koeficiyent chasto ye stalim u povnih umovnih virazah yaki zastosovuyutsya u vibirci Gibbsa ta optimalnih rozpodilah u variacijnih metodah VvedennyaKategorijnij rozpodil ye diskretnim rozpodilom imovirnosti prostir elementarnih podij yakogo ye naborom k okremo identifikovanih elementiv Vin ye uzagalnennyam rozpodilu Bernulli dlya kategorijnoyi vipadkovoyi zminnoyi V odnomu z formulyuvan cogo rozpodilu yak prostir elementarnih podij beretsya skinchenna poslidovnist cilih chisel Konkretni cili chisla sho vikoristovuyutsya yak mitki ne ye vazhlivimi nimi mozhut buti 0 1 k 1 abo 1 2 k abo bud yakij inshij dovilnij nabir znachen V nastupnih opisah mi vikoristovuyemo dlya zruchnosti 1 2 k hocha ce j rozhoditsya z ugodoyu dlya rozpodilu Bernulli yaka vikoristovuye 0 1 V comu vipadku funkciyeyu masi jmovirnosti f ye f x i p p i displaystyle f x i boldsymbol p p i de p p 1 p k displaystyle boldsymbol p p 1 p k p i displaystyle p i predstavlyaye jmovirnist pobachiti element i displaystyle i a i 1 k p i 1 displaystyle textstyle sum i 1 k p i 1 Inshim formulyuvannyam yake vidayetsya skladnishim ale polegshuye matematichni peretvorennya ye nastupne yake zastosovuye duzhki Ajversona f x p i 1 k p i x i displaystyle f x boldsymbol p prod i 1 k p i x i de x i displaystyle x i obchislyuyetsya yak 1 yaksho x i displaystyle x i a inakshe yak 0 V cogo formulyuvannya ye deyaki perevagi napriklad Vono sproshuye zapis funkciyi pravdopodibnosti naboru nezalezhnih odnakovo rozpodilenih kategorijnih zminnih Vono zv yazuye kategorijnij rozpodil zi sporidnenim polinomialnim rozpodilom Vono pokazuye chomu rozpodil Dirihle ye spryazhenim apriornim kategorijnogo rozpodilu i dozvolyaye obchislyuvati aposteriornij rozpodil parametriv She odne formulyuvannya robit yavnij zv yazok mizh kategorijnim ta polinomialnim rozpodilami shlyahom rozglyadu kategorijnogo rozpodilu yak okremogo vipadku polinomialnogo rozpodilu v yakomu parametr n polinomialnogo rozpodilu kilkist elementiv vibirki zafiksovano na rivni 1 V comu formulyuvanni prostir elementarnih podij mozhe rozglyadatisya yak mnozhina zakodovanih yak 1 iz K vipadkovih vektoriv x rozmirnosti k yaki mayut taku vlastivist sho rivno odin element kozhnogo z nih maye znachennya 1 a vsi inshi mayut znachennya 0 Konkretnij element yakij maye znachennya 1 vkazuye yaku kategoriyu bulo obrano Funkciyeyu masi jmovirnosti f u comu formulyuvanni ye f x p i 1 k p i x i displaystyle f mathbf x boldsymbol p prod i 1 k p i x i de p i displaystyle p i predstavlyaye jmovirnist pobachiti element i displaystyle i a i p i 1 displaystyle textstyle sum i p i 1 Ce ye formulyuvannyam prijnyatim en VlastivostiMozhlivi jmovirnosti kategorijnogo rozpodilu z k 3 displaystyle k 3 ye 2 simpleksom p 1 p 2 p 3 1 displaystyle p 1 p 2 p 3 1 vkladenim do 3 vimirnogo prostoru Cej rozpodil povnistyu zadayetsya jmovirnostyami pov yazanimi z kozhnim iz chisel i p i P X i displaystyle p i P X i i 1 k de i p i 1 displaystyle textstyle sum i p i 1 Ci mozhlivi jmovirnosti v tochnosti ye standartnim k 1 displaystyle k 1 vimirnim simpleksom dlya k 2 ce virodzhuyetsya do mozhlivih imovirnostej rozpodilu Bernulli sho ye 1 simpleksom p 1 p 2 1 0 p 1 p 2 1 displaystyle p 1 p 2 1 0 leq p 1 p 2 leq 1 Cej rozpodil ye okremim vipadkom bagatovimirnogo rozpodilu Bernulli v yakomu v tochnosti odna z k zminnih 0 1 nabuvaye znachennya odinici E x p displaystyle mathbb E left mathbf x right boldsymbol p Nehaj X displaystyle boldsymbol X bude realizaciyeyu z kategorichnogo rozpodilu Viznachmo vipadkovij vektor Y yak skladenij z elementiv Y i I X i displaystyle Y i I boldsymbol X i dd de I ye indikatornoyu funkciyeyu Todi Y maye rozpodil yakij ye okremim vipadkom polinomialnogo rozpodilu z parametrom n 1 displaystyle n 1 Suma n displaystyle n takih nezalezhnih ta odnakovo rozpodilenih zminnih Y pobudovana z kategorijnogo rozpodilu z parametrom p displaystyle boldsymbol p ye polinomialno rozpodilenoyu z parametrami n displaystyle n ta p displaystyle boldsymbol p Spryazhenim apriornim rozpodilom kategorijnogo rozpodilu ye rozpodil Dirihle Podalshe obgovorennya div rozdilom nizhche Dostatnoyu statistikoyu z n nezalezhnih sposterezhen ye nabir kilkostej abo rivnoznachno proporciya sposterezhen u kozhnij kategoriyi de zagalna kilkist sprob n ye fiksovanoyu Indikatorna funkciya togo sho sposterezhennya matime znachennya i rivnoznachna funkciyi duzhok Ajversona x i displaystyle x i abo funkciyi delti Kronekera d x i displaystyle delta xi maye rozpodil Bernulli z parametrom p i displaystyle p i Zi spryazhenim apriornimU bayesovij statistici rozpodil Dirihle ye spryazhenim apriornim rozpodilom kategorijnogo rozpodilu a takozh i polinomialnogo rozpodilu Ce oznachaye sho v modeli yaka skladayetsya z tochok danih yaki mayut kategorijnij rozpodil z nevidomim vektorom parametriv p i v standartnomu bayesovomu stili mi obirayemo rozglyad cogo parametru yak vipadkovoyi zminnoyi i dayemo jomu apriornij rozpodil viznachenij iz zastosuvannyam rozpodilu Dirihle to aposteriornij rozpodil cogo parametru pislya vklyuchennya znannya otrimanogo zi sposterezhenih danih takozh ye rozpodilom Dirihle Intuyitivno zrozumilo sho v takomu vipadku vihodyachi z togo sho mi znayemo pro parametr do sposterezhennya tochki danih mi potim mozhemo utochniti nashe znannya na osnovi ciyeyi tochki danih u kincevomu pidsumku z novim rozpodilom takogo zh viglyadu yak i starij Ce oznachaye sho mi mozhemo poslidovno utochnyuvati nashe znannya pro parametr vklyuchayuchi novi sposterezhennya po odnomu za raz ne vpadayuchi v matematichni uskladnennya Formalno ce mozhe buti virazheno nastupnim chinom Yaksho zadano model a a 1 a K giperparametr koncentraciyi p a p 1 p K Dir K a X p x 1 x K Cat K p displaystyle begin array lclcl boldsymbol alpha amp amp alpha 1 ldots alpha K amp amp text giperparametr koncentraciyi mathbf p mid boldsymbol alpha amp amp p 1 ldots p K amp sim amp operatorname Dir K boldsymbol alpha mathbb X mid mathbf p amp amp x 1 ldots x K amp sim amp operatorname Cat K mathbf p end array to vikonuyetsya nastupne c c 1 c K kilkist vipadkiv kategoriyi i j 1 N x j i p X a Dir K c a Dir K c 1 a 1 c K a K displaystyle begin array lclcl mathbf c amp amp c 1 ldots c K amp amp text kilkist vipadkiv kategoriyi i sum j 1 N x j i mathbf p mid mathbb X boldsymbol alpha amp sim amp operatorname Dir K mathbf c boldsymbol alpha amp amp operatorname Dir K c 1 alpha 1 ldots c K alpha K end array Ce spivvidnoshennya vikoristovuyetsya v bayesovij statistici dlya ocinki parametru p sho lezhit v osnovi kategorijnogo rozpodilu pri zadanij sukupnosti N zrazkiv Intuyitivno zrozumilo sho mi mozhemo rozglyadati en vektor a yak en tobto yak predstavlennya kilkosti sposterezhen u kozhnij z kategorij sho mi vzhe bachili Todi mi prosto dodayemo kilkosti dlya vsih novih sposterezhen vektor c shobi vivesti aposteriornij rozpodil Podalsha intuyiciya vihodit z matematichnogo spodivannya aposteriornogo rozpodilu div stattyu pro rozpodil Dirihle E p i X a c i a i N k a k displaystyle mathbb E p i mid mathbb X boldsymbol alpha frac c i alpha i N sum k alpha k Ce kazhe sho ochikuvana jmovirnist pobachiti kategoriyu i sered riznih diskretnih rozpodiliv porodzhenih aposteriornim rozpodilom prosto dorivnyuye proporciyi vipadkiv ciyeyi kategoriyi v dijsnosti pobachenih u danih vklyuchno iz psevdolichilnikami v apriornomu rozpodili Ce pidsilyuye intuyitivnij sens Yaksho napriklad ye tri mozhlivi kategoriyi j mi bachili kategoriyu 1 u nashih sposterezhenih danih 40 chasu to mi takozh ochikuvatimemo v serednomu bachiti kategoriyu 1 40 chasu i v aposteriornomu rozpodili Zauvazhte sho cya intuyiciya ignoruye vpliv apriornogo rozpodilu Krim togo vazhlivo mati na uvazi sho aposteriorne ye rozpodilom nad rozpodilami Slid pam yatati sho aposteriornij rozpodil v cilomu govorit nam sho mi znayemo pro doslidzhuvanij parametr i v comu vipadku sam parametr ye diskretnim rozpodilom imovirnosti tobto spravzhnim kategorijnim rozpodilom yakij porodiv nashi dani Napriklad yaksho mi bachili 3 kategoriyi u spivvidnoshenni 40 5 55 u nashih sposterezhuvanih danih todi nehtuyuchi vplivom apriornogo rozpodilu mi ochikuvatimemo sho istinnij parametr tobto istinnij rozpodil yakij lezhit v osnovi nashih sposterezhenih danih yaki vin porodiv matime serednye znachennya 0 40 0 05 0 55 yake naspravdi ye tim pro sho nam govorit aposteriornij rozpodil Prote spravzhnim rozpodilom v dijsnosti mig bi buti 0 35 0 07 0 58 abo 0 42 0 04 0 54 abo bagato inshih blizkih mozhlivostej Stupin vplutanoyi tut neviznachenosti viznachayetsya dispersiyeyu aposteriornogo yaka kontrolyuyetsya zagalnim chislom sposterezhen sho bilshe danih mi sposterigayemo to menshe neviznachenosti pro istinnij parametr Formalno apriornij parametr a i displaystyle alpha i slid rozglyadati yak takij sho predstavlyaye a i 1 displaystyle alpha i 1 apriornih sposterezhen kategoriyi i displaystyle i Todi utochnenij aposteriornij parametr c i a i displaystyle c i alpha i predstavlyaye c i a i 1 displaystyle c i alpha i 1 aposteriornih sposterezhen Ce vidobrazhaye toj fakt sho rozpodil Dirihle z a 1 1 displaystyle boldsymbol alpha 1 1 ldots maye absolyutno plasku formu po suti rivnomirnij rozpodil nad simpleksom mozhlivih znachen p Logichno sho plaskij rozpodil takogo vidu predstavlyaye povne neznannya sho vidpovidaye vidsutnosti sposterezhen bud yakogo vidu Prote matematichne utochnennya aposteriornogo pracyuye dobre yaksho mi ignoruyemo chlen 1 displaystyle dots 1 i prosto dumayemo pro vektor a yak takij sho pryamo predstavlyaye nabir psevdolichilnikiv Krim togo taka praktika dozvolyaye unikati problemi interpretuvannya znachen a i displaystyle alpha i menshih za 1 Ocinka MAI Ocinka aposteriornogo maksimumu parametra p v navedenij vishe modeli ye prosto modoyu aposteriornogo rozpodilu Dirihle tobto arg max p p p X a i c i 1 i a i c i 1 i a i c i gt 1 displaystyle arg max mathbf p p mathbf p mathbb X frac alpha i c i 1 sum i alpha i c i 1 qquad forall i alpha i c i gt 1 U bagatoh praktichnih zastosuvannyah yedinim sposobom garantuvati umovu i a i c i gt 1 displaystyle forall i alpha i c i gt 1 ye vstanoviti a i gt 1 displaystyle alpha i gt 1 dlya vsih i Vidosoblena pravdopodibnist U navedenij vishe modeli vidosoblena pravdopodibnist sposterezhen tobto spilnij rozpodil sposterezhen zi zneosoblenim apriornim parametrom ye en p X a p p X p p p a d p G k a k G N k a k k 1 K G c k a k G a k displaystyle begin aligned p mathbb X mid boldsymbol alpha amp int mathbf p p mathbb X mid mathbf p p mathbf p mid boldsymbol alpha textrm d mathbf p amp frac Gamma left sum k alpha k right Gamma left N sum k alpha k right prod k 1 K frac Gamma c k alpha k Gamma alpha k end aligned Cej rozpodil vidigraye vazhlivu rol v iyerarhichnih bayesovih modelyah oskilki pri vikonanni visnovuvannya nad takimi modelyami iz zastosuvannyam takih metodiv yak en abo en apriorni rozpodili Dirihle chasto zneosoblyuyutsya Dokladnishe div u en Peredbachuvanij aposteriornij rozpodil en novogo sposterezhennya v navedenij vishe modeli ye rozpodil yakij matime nove sposterezhennya x displaystyle tilde x pri zadanomu nabori X displaystyle mathbb X z N kategorijnih sposterezhen Yak pokazano v statti pro en vin maye duzhe prostij viglyad p x i X a p p x i p p p X a d p c i a i N k a k E p i X a c i a i displaystyle begin aligned p tilde x i mid mathbb X boldsymbol alpha amp int mathbf p p tilde x i mid mathbf p p mathbf p mid mathbb X boldsymbol alpha textrm d mathbf p amp frac c i alpha i N sum k alpha k amp mathbb E p i mid mathbb X boldsymbol alpha amp propto c i alpha i end aligned Zvernit uvagu na rizni vzayemozv yazki mizh ciyeyu formuloyu ta poperednimi Peredbachuvana aposteriorna jmovirnist pobachiti pevnu kategoriyu ye takoyu zh yak i vidnosna proporciya poperednih sposterezhen u cij kategoriyi vklyuchno iz psevdo sposterezhennyami v apriornomu Ce maye logichnij sens intuyitivno mi ochikuvatimemo pobachiti pevnu kategoriyu vidpovidno do chastoti z yakoyu yiyi vzhe bulo sposterezhuvano Peredbachuvana aposteriorna jmovirnist ye takoyu zh yak i matematichne spodivannya aposteriornogo rozpodilu Ce poyasnyuyetsya dokladnishe nizhche V rezultati cyu formulu mozhe buti virazheno prosto yak peredbachuvana aposteriorna jmovirnist pobachiti kategoriyu ye proporcijnoyu do zagalnogo sposterezhenogo chisla ciyeyi kategoriyi abo yak ochikuvane chislo kategoriyi ye takim samim yak i zagalne sposterezhene chislo ciyeyi kategoriyi de sposterezhene chislo vklyuchaye psevdo sposterezhennya apriornogo Prichina rivnoznachnosti mizh peredbachuvanoyu aposteriornoyu jmovirnistyu ta matematichnim spodivannyam aposteriornogo rozpodilu p staye ochevidnoyu shojno mi pereglyadayemo navedenu vishe formulu Yak opisano v statti pro en formula peredbachuvanoyi aposteriornoyi jmovirnosti maye viglyad matematichnogo spodivannya vzyatogo po vidnoshennyu do aposteriornogo rozpodilu p x i X a p p x i p p p X a d p E p X a p x i p E p X a p i E p i X a displaystyle begin aligned p tilde x i mid mathbb X boldsymbol alpha amp int mathbf p p tilde x i mid mathbf p p mathbf p mid mathbb X boldsymbol alpha textrm d mathbf p amp mathbb E mathbf p mid mathbb X boldsymbol alpha left p tilde x i mid mathbf p right amp mathbb E mathbf p mid mathbb X boldsymbol alpha left p i right amp mathbb E p i mid mathbb X boldsymbol alpha end aligned Virishalnim ryadkom vishe ye tretij Drugij viplivaye bezposeredno z viznachennya matematichnogo spodivannya Tretij ryadok ye osoblivim dlya kategorijnogo rozpodilu i viplivaye z togo faktu sho konkretno v kategorijnomu rozpodili matematichne spodivannya pobachiti pevne znachennya i bezposeredno vkazuyetsya pov yazanim parametrom pi Chetvertij ryadok ye prosto pereformulyuvannyam tretogo v inshomu zapisi iz zastosuvannyam navedenogo vishe zapisu matematichnogo spodivannya vzyatogo po vidnoshennyu do aposteriornogo rozpodilu parametriv Zvernimo takozh uvagu sho vidbuvayetsya u scenariyi v yakomu mi sposterezhuyemo tochki danih odna za odnoyu i kozhnogo razu rozglyadayemo yihnyu peredbachuvanu jmovirnist pered sposterezhennyam tochki danih ta utochnennyam aposteriornogo Dlya bud yakoyi zadanoyi tochki danih jmovirnist togo sho cya tochka nabude pevnoyi kategoriyi zalezhit vid kilkosti tochok danih sho vzhe ye v cij kategoriyi Yaksho kategoriya maye visoku chastotu traplyannya todi novi tochki pravdopodibnishe priyednayutsya do ciyeyi kategoriyi zbagachuyuchi dali tu samu kategoriyu Cej tip scenariyu chasto nazivayut modellyu perevazhnogo priyednannya abo bagatij staye bagatshim Ce modelyuye bagato procesiv realnogo svitu i v takih vipadkah vibori zrobleni kilkoma pershimi tochkami danih mayut duzhe velikij vpliv na reshtu tochok danih Umovnij aposteriornij rozpodil U en nam zazvichaj treba vityagati z umovnih rozpodiliv u bagatozminnih bayesovih merezhah de kozhnu zminnu obumovleno vsima inshimi V merezhah yaki vklyuchayut kategorijni zminni z apriornimi Dirihle napriklad en ta modelyah yaki vklyuchayut sumishevi skladovi rozpodili Dirihle chasto spadayut zneosoblyuyut z merezhi sho vvodit zalezhnosti mizh riznimi kategorijnimi vuzlami yaki zalezhat vid zadanogo apriornogo zokrema yih spilnij rozpodil ye en Odniyeyu z prichin robiti ce ye te sho v takomu vipadku rozpodil odnogo kategorijnogo vuzla dlya zadanih inshih ye v tochnosti en reshti vuzliv Tobto dlya naboru vuzliv X displaystyle mathbb X yaksho mi poznachimo vuzli pid pitannyam cherez x n displaystyle x n a reshtu cherez X n displaystyle mathbb X n to p x n i X n a c i n a i N 1 i a i c i n a i displaystyle begin aligned p x n i mid mathbb X n boldsymbol alpha amp frac c i n alpha i N 1 sum i alpha i amp propto c i n alpha i end aligned de c i n displaystyle c i n ye chislom vuzliv sho mayut kategoriyu i sered inshih vuzliv krim vuzla n VibirkaNajposhirenishij sposib vibirki z kategorijnogo rozpodilu vikoristovuye odin z tipiv en Pripustimo sho nam dano rozpodil virazhenij yak proporcijno do yakogos virazu z nevidomoyu en Todi persh nizh brati yakis zrazki mi gotuyemo deyaki znachennya v takij sposib Obchisliti ne normovane znachennya rozpodilu dlya kozhnoyi z kategorij Pidsumuvati yih i podiliti kozhne znachennya na cyu sumu shobi en yih Naklasti yakijs poryadok na kategoriyi napriklad indeksom yakij prohodit znachennya vid 1 do k de k ye chislom kategorij Peretvoriti ci znachennya na kumulyativnu funkciyu rozpodilu KFR zaminoyu kozhnogo znachennya sumoyu vsih poperednih znachen Ce mozhe buti zdijsneno za chas O k Otrimanim v rezultati znachennyam dlya pershoyi kategoriyi bude 0 Potim kozhnogo razu yak potribno vibrati znachennya Vzyati rivnomirno rozpodilene chislo mizh 0 ta 1 Viznachiti najbilshe chislo v KFR chiye znachennya ye menshim abo rivnim shojno obranomu chislu Ce mozhe zdijsnyuvatisya za chas O log k binarnim poshukom Povernuti kategoriyu yaka vidpovidaye comu znachennyu KFR Yaksho potribno vibirati bagato znachen z odnogo j togo zh kategorijnogo rozpodilu to efektivnishim mozhe buti nastupnij pidhid Vin vibiraye n zrazkiv za chas O n za pripushennya sho nablizhennya O 1 vikoristovuyetsya dlya viboru znachen z binomialnogo rozpodilu funkciya vibrati kategorijno n de n ye chislom zrazkiv yaki potribno vibrati z kategorijnogo rozpodilu r 1 s 0 dlya i vid 1 do k de k ye chislom kategorij v vibrati z binomialnogo rozpodilu n p i r de p i ye jmovirnistyu kategoriyi i dlya j vid 1 do v z s i de z ye masivom u yakomu zberigayutsya rezultati n n v r r p i peremishati vipadkovo perevporyadkuvati elementi v z povernuti z Vibirka cherez rozpodil Gumbelya V mashinnomu navchanni ye tipovim parametrizuvati kategorijnij rozpodil p 1 p k displaystyle p 1 ldots p k cherez neobmezhene predstavlennya v R k displaystyle mathbb R k skladovi yakogo zadayutsya yak g i log p i a displaystyle gamma i log p i alpha de a displaystyle alpha ye bud yakoyu dijsnoyu staloyu Mayuchi ce predstavlennya p 1 p k displaystyle p 1 ldots p k mozhna vidtvoriti iz zastosuvannyam normovanoyi eksponencijnoyi funkciyi z chogo potim mozhna robiti vibirku za opisanih vishe metodik Prote isnuye pryamishij metod vibirki yakij vikoristovuye vibirku z en Nehaj g 1 g k displaystyle g 1 ldots g k budut k nezalezhnimi viborami zi standartnogo rozpodilu Gumbelya todi c arg max i g i g i displaystyle c arg max i gamma i g i bude vibirkoyu z bazhanogo kategorijnogo rozpodilu Yaksho u i displaystyle u i ye vibirkoyu zi standartnogo rivnomirnogo rozpodilu to g i log log u i displaystyle g i log log u i ye vibirkoyu zi standartnogo rozpodilu Gumbelya Div takozhKategorijna zminna Pov yazani rozpodili Rozpodil Dirihle Polinomialnij rozpodil Rozpodil Bernulli en PrimitkiProte Bishop ne vikoristovuye yavno termin kategorijnij rozpodil VinoskiMurphy K P 2012 Machine learning a probabilistic perspective p 35 MIT press ISBN 0262018020 angl Minka T 2003 Bayesian inference entropy and the multinomial distribution 4 bereznya 2016 u Wayback Machine Technical report Microsoft Research angl Minka T 2003 op cit Minka uses the Kronecker delta function similar to but less general than the Iverson bracket angl en 2006 Pattern Recognition and Machine Learning Springer ISBN 0 387 31073 8 angl Johnson N L Kotz S Balakrishnan N 1997 Discrete Multivariate Distributions Wiley ISBN 0 471 12844 9 p 105 angl Agresti A An Introduction to Categorical Data Analysis Wiley Interscience 2007 ISBN 978 0 471 22618 5 pp 25 angl Adams Ryan Arhiv originalu za 6 bereznya 2016 Procitovano 3 kvitnya 2016 angl