У теорії інформації, перплексивність (складність) — це міра того, наскільки добре розподіл імовірності або статистична модель прогнозує вибірку. Її можна використовувати для порівняння ймовірнісних моделей. Низька перплексивність означає, що розподіл ймовірності добре передбачає вибірку.
Перплексивність розподілу ймовірностей
Перплексивність PP дискретного розподілу ймовірностей p визначається як
де H(p) — ентропія (у бітах) розподілу, a x — діапазон подій. (Основа логарифма не обов'язково має бути 2: перплексивність не залежить від основи за умови, що ентропія та показникова функція використовують ту саму основу.) Цей показник також відомий у деяких областях як міра різноманітності.
Перплексивність випадкової величини X може бути визначена як перплексивність розподілу її можливих значень x.
В окремому випадку, коли p моделює k-сторонній гральний кубик (рівномірний розподіл по k дискретним подіям), її перплексивність дорівнює k. Випадкова величина з перплексивністю k має таку ж невизначеність, як і k-сторонній гральний кубик. Тоді кажуть, що кубик «k-перплексивний» щодо значення випадкової величини. (Якщо це не k-сторонній кубик, можливо більше ніж k значень, однак загальна невизначеність не є вищою, тому що деякі з цих значень матимуть ймовірність більше 1/k, зменшуючи загальне значення під час підсумовування.)
Поняття перплексивності іноді використовується у значенні міри складності проблеми передбачення. Однак, це не завжди точно. Якщо у вас є два результати, один з яких має можливість 0,9, то при використанні оптимальної стратегії ваші шанси на правильне вгадування становлять 90 відсотків. Перплексивність становить 2 −0,9 log 2 0,9 — 0,1 log 2 0,1 = 1,38. Обернена величина до неї (яка у випадку з k-стороннім кубиком є ймовірністю правильного вгадування) дорівнює 1/1.38 = 0.72, а не 0,9.
Перплексивність — це показникова функція від ентропії, яка є більш точною величиною. Ентропія — це міра очікуваної, або «середньої» кількості бітів, необхідних для кодування результату випадкової змінної, наприклад, використовуючи теоретично оптимальний код змінної довжини.
Його еквівалентно можна розглядати як очікуваний інформаційний виграш від вивчення результату випадкової величини.
Перплексивність імовірнісної моделі
Модель з невідомим розподілом ймовірності величини p може бути створеною на основі навчальної вибірки, взятої з p.
Враховуючи запропоновану модель ймовірності q, можна оцінити q, зʼясувавши, наскільки добре вона передбачає окрему тестову вибірку x1, x2, …, xN, також отриману з p. Складність моделі q визначається як
де зазвичай становить 2.
Кращі моделі q невідомого розподілу p мають тенденцію визначати вищі ймовірності q(xi) для тестових подій. Таким чином, вони мають нижчу перплексивність, тобто менше дивуються тестовому зразку.
Наведену вище експоненту можна розглядати як середню кількість біт, необхідних для представлення тестової події xi, якщо використовувати оптимальний код з основою q. Моделі з нижчим значенням перплексивності краще справляються зі списком тестової вибірки, вимагаючи в середньому менше біт на тестовий елемент, оскільки q(xi) має тенденцію до зростання.
Експоненту можна також розглядати як перехресну ентропію,
де позначає емпіричний розподіл тестової вибірки (тобто, , якщо x з'явилося n разів у тестовій вибірці розміру N).
Перплексивність на слово
В обробці природної мови перплексивність є способом оцінки мовних моделей. Мовна модель — це розподіл ймовірностей на цілі речення або тексти.
Використовуючи визначення перплексивності для імовірнісної моделі, можна було б знайти, наприклад, що середнє речення xi у тестовій вибірці може бути закодовано в 190 біт (тобто, тестові речення мали середню логарифмічну ймовірність -190). Для моделі це означає величезне значення перплексивності 2190 на речення. Однак, частіше заведено нормалізувати довжину речення і враховувати лише кількість бітів на слово. Таким чином, якщо усі речення тестового зразка містили в цілому 1000 слів і їх можна було закодувати, використовуючи 7,95 біт на слово, то можна було б сказати, що перплексивність моделі на одне слово. Іншими словами, модель настільки заплутана в тестових даних, ніби їй доводилося вибирати рівномірно і незалежно з 247 можливостей для кожного слова.
Найменша перплексивність, яка була опублікована в Браунівському корпусі (містить 1 мільйон слів американської англійської різних тем і жанрів) станом на 1992 рік, дійсно становить близько 247 на слово, що відповідає перехресній ентропії біт на слово або 1,75 біт на букву, якщо скористатися триграмною моделлю. Зазвичай можна досягти меншої перплексивність на спеціалізованих корпусах текстів, оскільки вони більш передбачувані.
Загалом, просте передбачення про те, що наступним словом у корпусі Брауна є слово «the», буде мати точність 7 відсотків, а не 1/247 = 0,4 відсотки. Вказане припущення засновано на статистиці уніграмм корпусу Брауна, а не на статистиці триграми, яка дала слову «the» перплексивність 247. Як бачимо, використання триграмної моделі підвищило б шанси на правильні припущення.
Примітки
Посилання
- Brown, Peter F. та ін. (March 1992). An Estimate of an Upper Bound for the Entropy of English (PDF). Computational Linguistics. 18 (1). Процитовано 7 лютого 2007.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U teoriyi informaciyi perpleksivnist skladnist ce mira togo naskilki dobre rozpodil imovirnosti abo statistichna model prognozuye vibirku Yiyi mozhna vikoristovuvati dlya porivnyannya jmovirnisnih modelej Nizka perpleksivnist oznachaye sho rozpodil jmovirnosti dobre peredbachaye vibirku Perpleksivnist rozpodilu jmovirnostejPerpleksivnist PP diskretnogo rozpodilu jmovirnostej p viznachayetsya yak P P p 2 H p 2 x p x log 2 p x x p x p x displaystyle mathit PP p 2 H p 2 sum x p x log 2 p x prod x p x p x de H p entropiya u bitah rozpodilu a x diapazon podij Osnova logarifma ne obov yazkovo maye buti 2 perpleksivnist ne zalezhit vid osnovi za umovi sho entropiya ta pokaznikova funkciya vikoristovuyut tu samu osnovu Cej pokaznik takozh vidomij u deyakih oblastyah yak mira riznomanitnosti Perpleksivnist vipadkovoyi velichini X mozhe buti viznachena yak perpleksivnist rozpodilu yiyi mozhlivih znachen x V okremomu vipadku koli p modelyuye k storonnij gralnij kubik rivnomirnij rozpodil po k diskretnim podiyam yiyi perpleksivnist dorivnyuye k Vipadkova velichina z perpleksivnistyu k maye taku zh neviznachenist yak i k storonnij gralnij kubik Todi kazhut sho kubik k perpleksivnij shodo znachennya vipadkovoyi velichini Yaksho ce ne k storonnij kubik mozhlivo bilshe nizh k znachen odnak zagalna neviznachenist ne ye vishoyu tomu sho deyaki z cih znachen matimut jmovirnist bilshe 1 k zmenshuyuchi zagalne znachennya pid chas pidsumovuvannya Ponyattya perpleksivnosti inodi vikoristovuyetsya u znachenni miri skladnosti problemi peredbachennya Odnak ce ne zavzhdi tochno Yaksho u vas ye dva rezultati odin z yakih maye mozhlivist 0 9 to pri vikoristanni optimalnoyi strategiyi vashi shansi na pravilne vgaduvannya stanovlyat 90 vidsotkiv Perpleksivnist stanovit 2 0 9 log 2 0 9 0 1 log 2 0 1 1 38 Obernena velichina do neyi yaka u vipadku z k storonnim kubikom ye jmovirnistyu pravilnogo vgaduvannya dorivnyuye 1 1 38 0 72 a ne 0 9 Perpleksivnist ce pokaznikova funkciya vid entropiyi yaka ye bilsh tochnoyu velichinoyu Entropiya ce mira ochikuvanoyi abo serednoyi kilkosti bitiv neobhidnih dlya koduvannya rezultatu vipadkovoyi zminnoyi napriklad vikoristovuyuchi teoretichno optimalnij kod zminnoyi dovzhini Jogo ekvivalentno mozhna rozglyadati yak ochikuvanij informacijnij vigrash vid vivchennya rezultatu vipadkovoyi velichini Perpleksivnist imovirnisnoyi modeliModel z nevidomim rozpodilom jmovirnosti velichini p mozhe buti stvorenoyu na osnovi navchalnoyi vibirki vzyatoyi z p Vrahovuyuchi zaproponovanu model jmovirnosti q mozhna ociniti q zʼyasuvavshi naskilki dobre vona peredbachaye okremu testovu vibirku x1 x2 xN takozh otrimanu z p Skladnist modeli q viznachayetsya yak b 1 N i 1 N log b q x i displaystyle b frac 1 N sum i 1 N log b q x i de b displaystyle b zazvichaj stanovit 2 Krashi modeli q nevidomogo rozpodilu p mayut tendenciyu viznachati vishi jmovirnosti q xi dlya testovih podij Takim chinom voni mayut nizhchu perpleksivnist tobto menshe divuyutsya testovomu zrazku Navedenu vishe eksponentu mozhna rozglyadati yak serednyu kilkist bit neobhidnih dlya predstavlennya testovoyi podiyi xi yaksho vikoristovuvati optimalnij kod z osnovoyu q Modeli z nizhchim znachennyam perpleksivnosti krashe spravlyayutsya zi spiskom testovoyi vibirki vimagayuchi v serednomu menshe bit na testovij element oskilki q xi maye tendenciyu do zrostannya Eksponentu mozhna takozh rozglyadati yak perehresnu entropiyu H p q x p x log 2 q x displaystyle H tilde p q sum x tilde p x log 2 q x de p displaystyle tilde p poznachaye empirichnij rozpodil testovoyi vibirki tobto p x n N displaystyle tilde p x n N yaksho x z yavilosya n raziv u testovij vibirci rozmiru N Perpleksivnist na slovoV obrobci prirodnoyi movi perpleksivnist ye sposobom ocinki movnih modelej Movna model ce rozpodil jmovirnostej na cili rechennya abo teksti Vikoristovuyuchi viznachennya perpleksivnosti dlya imovirnisnoyi modeli mozhna bulo b znajti napriklad sho serednye rechennya xi u testovij vibirci mozhe buti zakodovano v 190 bit tobto testovi rechennya mali serednyu logarifmichnu jmovirnist 190 Dlya modeli ce oznachaye velichezne znachennya perpleksivnosti 2190 na rechennya Odnak chastishe zavedeno normalizuvati dovzhinu rechennya i vrahovuvati lishe kilkist bitiv na slovo Takim chinom yaksho usi rechennya testovogo zrazka mistili v cilomu 1000 sliv i yih mozhna bulo zakoduvati vikoristovuyuchi 7 95 bit na slovo to mozhna bulo b skazati sho perpleksivnist modeli 2 7 95 247 displaystyle 2 7 95 approx 247 na odne slovo Inshimi slovami model nastilki zaplutana v testovih danih nibi yij dovodilosya vibirati rivnomirno i nezalezhno z 247 mozhlivostej dlya kozhnogo slova Najmensha perpleksivnist yaka bula opublikovana v Braunivskomu korpusi mistit 1 miljon sliv amerikanskoyi anglijskoyi riznih tem i zhanriv stanom na 1992 rik dijsno stanovit blizko 247 na slovo sho vidpovidaye perehresnij entropiyi log 2 247 7 95 displaystyle log 2 247 approx 7 95 bit na slovo abo 1 75 bit na bukvu yaksho skoristatisya trigramnoyu modellyu Zazvichaj mozhna dosyagti menshoyi perpleksivnist na specializovanih korpusah tekstiv oskilki voni bilsh peredbachuvani Zagalom proste peredbachennya pro te sho nastupnim slovom u korpusi Brauna ye slovo the bude mati tochnist 7 vidsotkiv a ne 1 247 0 4 vidsotki Vkazane pripushennya zasnovano na statistici unigramm korpusu Brauna a ne na statistici trigrami yaka dala slovu the perpleksivnist 247 Yak bachimo vikoristannya trigramnoyi modeli pidvishilo b shansi na pravilni pripushennya PrimitkiZatverdzhuvannya statistichnoyi modeliPosilannyaBrown Peter F ta in March 1992 An Estimate of an Upper Bound for the Entropy of English PDF Computational Linguistics 18 1 Procitovano 7 lyutogo 2007