Ця стаття надає недостатньо контекстної інформації для не обізнаних із її предметом. (травень 2017) |
Пото́чкова взає́мна інформа́ція (ПВІ, англ. pointwise mutual information, PMI), або то́чкова взає́мна інформа́ція (англ. point mutual information) — це міра пов'язаності, що використовується в теорії інформації та статистиці. На відміну від взаємної інформації (ВІ), що будується на ПВІ, вона стосується одиничних подій, тоді як ВІ стосується усереднення всіх можливих подій.
Визначення
ПВІ пари результатів x та y, що належать дискретним випадковим змінним X та Y, дає кількісну оцінку розбіжності між імовірністю їхнього збігу за заданого їхнього спільного розподілу, та їхніми особистими розподілами за умови їхньої незалежності. Математично:
Взаємна інформація (ВІ) випадкових змінних X та Y є математичним сподіванням значення ПВІ над усіма можливими результатами (по відношенню до спільного розподілу ).
Ця міра є симетричною (). Вона може набувати додатних та від'ємних значень, але є нульовою, якщо X та Y є незалежними. Зауважте, що хоча ПВІ й може бути додатною або від'ємною, її математичне сподівання над усіма спільними подіями (ВІ) є додатним. ПВІ досягає максимуму тоді, коли X та Y є цілком пов'язаними (тобто, або ), даючи наступні межі:
Нарешті, збільшуватиметься за незмінної , але зменшуваної .
Ось приклад для ілюстрації:
x | y | p(x, y) |
---|---|---|
0 | 0 | 0.1 |
0 | 1 | 0.7 |
1 | 0 | 0.15 |
1 | 1 | 0.05 |
Використовуючи цю таблицю, ми можемо здійснити відособлювання, щоби отримати наступну додаткову таблицю для особистих розподілів:
p(x) | p(y) | |
---|---|---|
0 | 0.8 | 0.25 |
1 | 0.2 | 0.75 |
У цьому прикладі ми можемо обчислити чотири значення . Із застосуванням логарифмів за основою 2:
pmi(x=0;y=0) | = | −1 |
pmi(x=0;y=1) | = | 0.222392 |
pmi(x=1;y=0) | = | 1.584963 |
pmi(x=1;y=1) | = | -1.584963 |
(Для довідки, взаємною інформацією тоді буде 0.2141709)
Схожості зі взаємною інформацією
Поточкова взаємна інформація має багато відношень, однакових зі взаємною інформацією. Зокрема,
де є власною інформацією, або .
Нормалізована поточкова взаємна інформація (НПВІ)
Поточкову взаємну інформацію може бути нормалізовано в проміжку [-1,+1], що дає в результаті -1 (у границі) для спільної появи ніколи, 0 — для незалежності та +1 — для цілковито [en].
Варіанти ПВІ
На додачу до наведеної вище НПВІ, ПВІ має багато інших цікавих варіантів. Порівняльне дослідження цих варіантів можна знайти в
Ланцюгове правило для ПВІ
Як і взаємна інформація, поточкова взаємна інформація слідує ланцюговому правилу, тобто,
Це може бути легко доведено як
Застосування
В математичній лінгвістиці ПВІ використовували для знаходження сполучень та пов'язаності слів. Наприклад, [en] появ та [en] слів у корпусі текстів можна використовувати для наближення ймовірностей та відповідно. Наступна таблиця показує кількості пар слів, що отримали найвищі та найнижчі рівні ПВІ у перших 50 мільйонах слів англомовної Вікіпедії (дамп від жовтня 2015 року), відфільтрованих за 1 000 чи більше спільних появ. Частоту кожної з кількостей можна отримати діленням її значення на 50 000 952. (Зауваження: в цьому прикладі для обчислення значень ПВІ використано натуральний логарифм замість логарифму за основою 2)
слово 1 | слово 2 | кількість слів 1 | кількість слів 2 | кількість спільних появ | ПВІ |
---|---|---|---|---|---|
puerto | rico | 1938 | 1311 | 1159 | 10.0349081703 |
hong | kong | 2438 | 2694 | 2205 | 9.72831972408 |
los | angeles | 3501 | 2808 | 2791 | 9.56067615065 |
carbon | dioxide | 4265 | 1353 | 1032 | 9.09852946116 |
prize | laureate | 5131 | 1676 | 1210 | 8.85870710982 |
san | francisco | 5237 | 2477 | 1779 | 8.83305176711 |
nobel | prize | 4098 | 5131 | 2498 | 8.68948811416 |
ice | hockey | 5607 | 3002 | 1933 | 8.6555759741 |
star | trek | 8264 | 1594 | 1489 | 8.63974676575 |
car | driver | 5578 | 2749 | 1384 | 8.41470768304 |
it | the | 283891 | 3293296 | 3347 | -1.72037278119 |
are | of | 234458 | 1761436 | 1019 | -2.09254205335 |
this | the | 199882 | 3293296 | 1211 | -2.38612756961 |
is | of | 565679 | 1761436 | 1562 | -2.54614706831 |
and | of | 1375396 | 1761436 | 2949 | -2.79911817902 |
a | and | 984442 | 1375396 | 1457 | -2.92239510038 |
in | and | 1187652 | 1375396 | 1537 | -3.05660070757 |
to | and | 1025659 | 1375396 | 1286 | -3.08825363041 |
to | in | 1025659 | 1187652 | 1066 | -3.12911348956 |
of | and | 1761436 | 1375396 | 1190 | -3.70663100173 |
Добре сполучені пари мають високу ПВІ, оскільки ймовірність спільної появи є лише трошки нижчою за ймовірності появи кожного зі слів. З іншого боку, пара слів, ймовірності появи яких є значно вищими за ймовірність їхньої спільної появи, отримує низький рівень ПВІ.
Примітки
- Kenneth Ward Church and Patrick Hanks (March 1990). . Comput. Linguist. 16 (1): 22—29. Архів оригіналу за 28 серпня 2017. Процитовано 28 травня 2017. (англ.)
- Bouma, Gerlof (2009). (PDF). Proceedings of the Biennial GSCL Conference. Архів оригіналу (PDF) за 30 липня 2016. Процитовано 28 травня 2017. (англ.)
- Francois Role, Moahmed Nadif. Handling the Impact of Low frequency Events on Co-occurrence-based Measures of Word Similarity:A Case Study of Pointwise Mutual Information. [ 7 листопада 2016 у Wayback Machine.] Proceedings of KDIR 2011 : KDIR- International Conference on Knowledge Discovery and Information Retrieval, Paris, October 26-29 2011 (англ.)
- Paul L. Williams. (PDF). Архів оригіналу (PDF) за 24 травня 2018. Процитовано 28 травня 2017. (англ.)
Література
Посилання
- Демонстрація на сервері MSR Rensselaer (значення ПВІ нормалізовано, щоби вони були в проміжку між 0 та 1) (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya nadaye nedostatno kontekstnoyi informaciyi dlya ne obiznanih iz yiyi predmetom Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi zrozumilu kontekstnu informaciyu traven 2017 Poto chkova vzaye mna informa ciya PVI angl pointwise mutual information PMI abo to chkova vzaye mna informa ciya angl point mutual information ce mira pov yazanosti sho vikoristovuyetsya v teoriyi informaciyi ta statistici Na vidminu vid vzayemnoyi informaciyi VI sho buduyetsya na PVI vona stosuyetsya odinichnih podij todi yak VI stosuyetsya userednennya vsih mozhlivih podij ViznachennyaPVI pari rezultativ x ta y sho nalezhat diskretnim vipadkovim zminnim X ta Y daye kilkisnu ocinku rozbizhnosti mizh imovirnistyu yihnogo zbigu za zadanogo yihnogo spilnogo rozpodilu ta yihnimi osobistimi rozpodilami za umovi yihnoyi nezalezhnosti Matematichno pmi x y log p x y p x p y log p x y p x log p y x p y displaystyle operatorname pmi x y equiv log frac p x y p x p y log frac p x y p x log frac p y x p y Vzayemna informaciya VI vipadkovih zminnih X ta Y ye matematichnim spodivannyam znachennya PVI nad usima mozhlivimi rezultatami po vidnoshennyu do spilnogo rozpodilu p x y displaystyle p x y Cya mira ye simetrichnoyu pmi x y pmi y x displaystyle operatorname pmi x y operatorname pmi y x Vona mozhe nabuvati dodatnih ta vid yemnih znachen ale ye nulovoyu yaksho X ta Y ye nezalezhnimi Zauvazhte sho hocha PVI j mozhe buti dodatnoyu abo vid yemnoyu yiyi matematichne spodivannya nad usima spilnimi podiyami VI ye dodatnim PVI dosyagaye maksimumu todi koli X ta Y ye cilkom pov yazanimi tobto p x y displaystyle p x y abo p y x 1 displaystyle p y x 1 dayuchi nastupni mezhi pmi x y min log p x log p y displaystyle infty leq operatorname pmi x y leq min left log p x log p y right Nareshti pmi x y displaystyle operatorname pmi x y zbilshuvatimetsya za nezminnoyi p x y displaystyle p x y ale zmenshuvanoyi p x displaystyle p x Os priklad dlya ilyustraciyi x y p x y 0 0 0 1 0 1 0 7 1 0 0 15 1 1 0 05 Vikoristovuyuchi cyu tablicyu mi mozhemo zdijsniti vidosoblyuvannya shobi otrimati nastupnu dodatkovu tablicyu dlya osobistih rozpodiliv p x p y 0 0 8 0 25 1 0 2 0 75 U comu prikladi mi mozhemo obchisliti chotiri znachennya p m i x y displaystyle pmi x y Iz zastosuvannyam logarifmiv za osnovoyu 2 pmi x 0 y 0 1 pmi x 0 y 1 0 222392 pmi x 1 y 0 1 584963 pmi x 1 y 1 1 584963 Dlya dovidki vzayemnoyu informaciyeyu I X Y displaystyle operatorname I X Y todi bude 0 2141709 Shozhosti zi vzayemnoyu informaciyeyuPotochkova vzayemna informaciya maye bagato vidnoshen odnakovih zi vzayemnoyu informaciyeyu Zokrema pmi x y h x h y h x y h x h x y h y h y x displaystyle begin aligned operatorname pmi x y amp amp h x h y h x y amp amp h x h x y amp amp h y h y x end aligned de h x displaystyle h x ye vlasnoyu informaciyeyu abo log 2 p X x displaystyle log 2 p X x Normalizovana potochkova vzayemna informaciya NPVI Potochkovu vzayemnu informaciyu mozhe buti normalizovano v promizhku 1 1 sho daye v rezultati 1 u granici dlya spilnoyi poyavi nikoli 0 dlya nezalezhnosti ta 1 dlya cilkovito en npmi x y pmi x y h x y displaystyle operatorname npmi x y frac operatorname pmi x y h x y Varianti PVINa dodachu do navedenoyi vishe NPVI PVI maye bagato inshih cikavih variantiv Porivnyalne doslidzhennya cih variantiv mozhna znajti v Lancyugove pravilo dlya PVIYak i vzayemna informaciya potochkova vzayemna informaciya sliduye lancyugovomu pravilu tobto pmi x y z pmi x y pmi x z y displaystyle operatorname pmi x yz operatorname pmi x y operatorname pmi x z y Ce mozhe buti legko dovedeno yak pmi x y pmi x z y log p x y p x p y log p x z y p x y p z y log p x y p x p y p x z y p x y p z y log p x y p y p x z y p x p y p x y p z y log p x y z p x p y z pmi x y z displaystyle begin aligned operatorname pmi x y operatorname pmi x z y amp log frac p x y p x p y log frac p x z y p x y p z y amp log left frac p x y p x p y frac p x z y p x y p z y right amp log frac p x y p y p x z y p x p y p x y p z y amp log frac p x yz p x p yz amp operatorname pmi x yz end aligned ZastosuvannyaV matematichnij lingvistici PVI vikoristovuvali dlya znahodzhennya spoluchen ta pov yazanosti sliv Napriklad en poyav ta en sliv u korpusi tekstiv mozhna vikoristovuvati dlya nablizhennya jmovirnostej p x displaystyle p x ta p x y displaystyle p x y vidpovidno Nastupna tablicya pokazuye kilkosti par sliv sho otrimali najvishi ta najnizhchi rivni PVI u pershih 50 miljonah sliv anglomovnoyi Vikipediyi damp vid zhovtnya 2015 roku vidfiltrovanih za 1 000 chi bilshe spilnih poyav Chastotu kozhnoyi z kilkostej mozhna otrimati dilennyam yiyi znachennya na 50 000 952 Zauvazhennya v comu prikladi dlya obchislennya znachen PVI vikoristano naturalnij logarifm zamist logarifmu za osnovoyu 2 slovo 1 slovo 2 kilkist sliv 1 kilkist sliv 2 kilkist spilnih poyav PVI puerto rico 1938 1311 1159 10 0349081703 hong kong 2438 2694 2205 9 72831972408 los angeles 3501 2808 2791 9 56067615065 carbon dioxide 4265 1353 1032 9 09852946116 prize laureate 5131 1676 1210 8 85870710982 san francisco 5237 2477 1779 8 83305176711 nobel prize 4098 5131 2498 8 68948811416 ice hockey 5607 3002 1933 8 6555759741 star trek 8264 1594 1489 8 63974676575 car driver 5578 2749 1384 8 41470768304 it the 283891 3293296 3347 1 72037278119 are of 234458 1761436 1019 2 09254205335 this the 199882 3293296 1211 2 38612756961 is of 565679 1761436 1562 2 54614706831 and of 1375396 1761436 2949 2 79911817902 a and 984442 1375396 1457 2 92239510038 in and 1187652 1375396 1537 3 05660070757 to and 1025659 1375396 1286 3 08825363041 to in 1025659 1187652 1066 3 12911348956 of and 1761436 1375396 1190 3 70663100173 Dobre spolucheni pari mayut visoku PVI oskilki jmovirnist spilnoyi poyavi ye lishe troshki nizhchoyu za jmovirnosti poyavi kozhnogo zi sliv Z inshogo boku para sliv jmovirnosti poyavi yakih ye znachno vishimi za jmovirnist yihnoyi spilnoyi poyavi otrimuye nizkij riven PVI PrimitkiKenneth Ward Church and Patrick Hanks March 1990 Comput Linguist 16 1 22 29 Arhiv originalu za 28 serpnya 2017 Procitovano 28 travnya 2017 angl Bouma Gerlof 2009 PDF Proceedings of the Biennial GSCL Conference Arhiv originalu PDF za 30 lipnya 2016 Procitovano 28 travnya 2017 angl Francois Role Moahmed Nadif Handling the Impact of Low frequency Events on Co occurrence based Measures of Word Similarity A Case Study of Pointwise Mutual Information 7 listopada 2016 u Wayback Machine Proceedings of KDIR 2011 KDIR International Conference on Knowledge Discovery and Information Retrieval Paris October 26 29 2011 angl Paul L Williams PDF Arhiv originalu PDF za 24 travnya 2018 Procitovano 28 travnya 2017 angl LiteraturaFano R M 1961 chapter 2 Transmission of Information A Statistical Theory of Communications MIT Press Cambridge MA ISBN 978 0262561693 angl PosilannyaDemonstraciya na serveri MSR Rensselaer znachennya PVI normalizovano shobi voni buli v promizhku mizh 0 ta 1 angl