В математичній статистиці розхо́дження, диверге́нція або ві́дстань Кульбака — Лейблера (що також називають відно́сною ентропі́єю, англ. Kullback–Leibler divergence, relative entropy) є мірою того, наскільки один розподіл імовірності відрізняється від іншого, еталонного розподілу ймовірності. До його застосувань належать відно́сна (шеннонова) ентропі́я в інформаційних системах, випадко́вість (англ. randomness) у неперервних часових рядах, та при́ріст інформа́ції (англ. information gain) при порівнюванні статистичних моделей висновування. На противагу до [en], воно є асиметричною міжрозподіловою мірою, і відтак не відповідає вимогам статистичної метрики розкиду. В простому випадку нульове розходження Кульбака — Лейблера показує, що два розглядані розподіли є ідентичними. Простішими словами, воно є мірою несподіваності, з різноманітними застосуваннями, такими як прикладна статистика, гідромеханіка, нейронаука та машинне навчання.
Етимологія
Розходження Кульбака — Лейблера було запропоновано 1951 року Соломоном Кульбаком та [en] як орієнто́ване розхо́дження (англ. directed divergence) між двома розподілами; Кульбак віддавав перевагу термінові інформа́ція розрі́знення (англ. discrimination information). Це розходження обговорено в книзі Кульбака 1959 року «Теорія інформації та статистика».
Означення
Для дискретних розподілів ймовірності та , визначених на одному й тому ж імовірнісному просторі, розходженням Кульбака — Лейблера означено
|
| ( ) |
що є рівнозначним
Іншими словами, воно є математичним сподіванням логарифмічної різниці між імовірностями та , де математичне сподівання беруть із застосуванням ймовірностей . Розходження Кульбака — Лейблера можливо визначити лише якщо для будь-якого означає (абсолютна неперервність). Коли є нулем, внесок відповідного члену розцінюють як нульовий, оскільки
Для розподілів та неперервної випадкової змінної розходженням Кульбака — Лейблера означують інтеграл
|
| ( ) |
де символами та позначено густини імовірності та .
Загальніше, якщо та є ймовірнісними мірами над множиною , а є абсолютно неперервною щодо , то розходженням Кульбака — Лейблера від до означують
де є похідною Радона — Нікодима щодо , і за умови існування правобічного виразу. Це може бути рівнозначно (згідно ланцюгового правила) записано як
що є ентропією відносно . У продовження цього випадку, якщо є будь-якою мірою на , для якої існують та (що означає, що та є абсолютно неперервними щодо ), то розходження Кульбака — Лейблера від до задають як
Логарифми в цих формулах беруть за [en] 2, якщо інформацію вимірюють в одиницях бітів, або за основою , якщо інформацію вимірюють в натах. Більшість формул, що залучають розходження Кульбака — Лейблера, виконуються не залежно від основи логарифму.
Існують різні угоди, як посилатися на словами. Часто на нього посилаються як на розходження між та , проте, це не передає фундаментальної асиметричності в цьому відношенні. Іноді, як у цій статті, можна знайти його опис як розходження від, або щодо . Це віддзеркалює асиметричність баєсового висновування, що починається від апріорного , і уточнюється до апостеріорного .
Простий приклад
Кульбак наводить простий приклад (таблиця 2.1, приклад 2.1). Нехай та є розподілами, показаними в таблиці й на малюнку. є розподілом з лівого боку малюнку, біноміальним розподілом з та . є розподілом з правого боку малюнку, дискретним рівномірним розподілом з трьома можливими результатами, , чи (тобто, ), кожен з імовірністю .
x | 0 | 1 | 2 |
---|---|---|---|
Розподіл P(x) | 0.36 | 0.48 | 0.16 |
Розподіл Q(x) | 0.333 | 0.333 | 0.333 |
КЛ-розходження та обчислюють із застосуванням означення (1) наступним чином. Цей приклад використовує натуральний логарифм з основою e, позначуваний , щоби отримати результати в натах (див. Одиниці вимірювання інформації).
Інтерпретації
Розходження Кульбака — Лейблера від до часто позначують через .
В контексті машинного навчання часто називають [en], отримуваним при застосовуванні замість . За аналогією з теорією інформації, його також називають відно́сною ентропі́єю (англ. relative entropy) щодо . В контексті теорії кодування можливо тлумачити як вимірювання математичного сподівання числа додаткових бітів, необхідних для кодування зразків з із застосуванням коду, оптимізованого для , замість коду, оптимізованого для .
Виражене мовою баєсового висновування, є мірою приросту інформації при перегляді переконань від апріорного розподілу ймовірності до апостеріорного розподілу ймовірності . Іншими словами, це величина інформації, що втрачається при застосуванні для наближення . У застосуваннях зазвичай представляє «істинний» розподіл даних, спостережень, або точно обчислений теоретичний розподіл, тоді як зазвичай представляє теорію, модель, опис, або наближення . Щоби знаходити розподіл , який є найближчим до , ми можемо мінімізувати КЛ-розходження, обчислюючи [en].
Розходження Кульбака — Лейблера є окремим випадком ширшого класу [en], що називають [en], а також класу [en]. Воно є єдиним таким розходженням над імовірностями, що належить до обох класів. І хоч його й часто інтуїтивно сприймають як спосіб вимірювання відстані між розподілами ймовірності, розходження Кульбака — Лейблера не є справжньою метрикою. З ним не дотримується нерівність трикутника, і в загальному випадку не дорівнює . Проте, його [en] вигляд, а саме його гессіан, дає метричний тензор, відомий як [en].
Характеризування
Артур Гобсон довів, що розходження Кульбака — Лейблера є єдиною мірою відмінності між розподілами ймовірності, яка задовольняє деякі бажані властивості, що є канонічним розширенням присутніх у широко вживаному (характеризуванні ентропії). Отже, взаємна інформація є єдиною мірою взаємної залежності, яка дотримується певних пов'язаних умов, оскільки її може бути визначено (в термінах розходження Кульбака — Лейблера).
Існує також баєсове характеризування розходження Кульбака — Лейблера.
Обґрунтування
В теорії інформації теорема Крафта — Макміллана встановлює, що будь-яку безпосередньо розкодовувану схему кодування для кодування повідомлення для виявляння одного значення з ряду можливостей можливо розглядати як представлення неявного розподілу ймовірності над , де є довжиною коду для в бітах. Отже, розходження Кульбака — Лейблера можливо інтерпретувати як математичне сподівання додаткової довжини повідомлення над рівнем, яка мусить передаватися, якщо застосовується код, що є оптимальним для заданого (неправильного) розподілу , в порівнянні з застосуванням коду, що ґрунтується на істинному розподілі .
де є перехресною ентропією та , а є ентропією .
Зауважте також, що існує зв'язок між розходженням Кульбака — Лейблера та [en] в [en].
Властивості
- Розходження Кульбака — Лейблера є завжди невід'ємним,
- результат, відомий як [en], з нульовим якщо і лише якщо майже скрізь. Ентропія відтак встановлює мінімальне значення для перехресної ентропії , математичного сподівання числа бітів, необхідних при використанні коду на основі замість , і, відтак, розходження Кульбака — Лейблера представляє математичне сподівання числа додаткових бітів, що мусять передаватися, щоби ідентифікувати значення , вибране з , якщо застосовується код, що відповідає розподілові ймовірності , а не «істинному» розподілові .
- Розходження Кульбака — Лейблера залишається однозначно означеним і для неперервних розподілів, а до того ж ще й інваріантним відносно перетворень параметрів. Наприклад, якщо здійснюють перетворення змінної на змінну , то, оскільки та , розходження Кульбака — Лейблера може бути переписано:
- де та . І хоча й передбачалося, що перетворення було неперервним, але це не є обов'язковим. Це також показує, що розходження Кульбака — Лейблера дає розмірнісно стійку величину, оскільки якщо є змінною з розмірністю, то та також мають розмірності, бо, наприклад, розмірностей не має. Аргумент логарифмічного члену є й залишається безрозмірнісним, як він і мусить. Отже, це можливо розглядати як певним чином фундаментальнішу величину, ніж деякі інші властивості в теорії інформації (такі як власна інформація та шеннонова ентропія), що для не дискретних ймовірностей можуть ставати невизначеними або від'ємними.
- Розходження Кульбака — Лейблера є [en] для незалежних розподілів практично так само, як і шеннонова ентропія. Якщо є незалежними розподілами, зі спільним розподілом , і аналогічно, то
- Розходження Кульбака — Лейблера є опуклим в парі функцій маси ймовірності , тобто, якщо та є двома парами функцій маси ймовірності, то
Приклади
Багатовимірні нормальні розподіли
Припустімо, що ми маємо два багатовимірні нормальні розподіли з середніми та з (невиродженими) коваріаційними матрицями Якщо ці два розподіли мають однакову розмірність, , то розходження Кульбака — Лейблера між ними є таким:
Логарифм в крайньому члені мусить братися за основою e, оскільки всі члени, крім крайнього, є логарифмами за основою e виразів, що є або коефіцієнтами функції густини, або інакше виникають натурально. Тож це рівняння дає результат, вимірюваний в натах. Ділення всього наведеного вище виразу на дає розходження в бітах.
Особливим випадком, що є широко вживаною величиною у [en], є КЛ-розходження між діагональним багатовимірним нормальним, та стандартним нормальним розподілами:
Відношення до метрик
Можна було би спокуситися назвати розходження Кульбака — Лейблера «метрикою відстані» на просторі розподілів імовірності, але це не буде правильним, оскільки воно не є симетричним, тобто, , як і не задовольняє воно нерівність трикутника. Незважаючи на це, будучи [en], воно породжує топологію на просторі розподілів імовірності. Конкретніше, якщо є послідовністю розподілів, такою, що
то кажуть, що
З [en] випливає, що
де крайнє відповідає звичайній збіжності в повній варіації.
Далі Реньї (1970, 1961)
Інформаційна метрика Фішера
Розходження Кульбака — Лейблера є безпосередньо пов'язаним з [en]. Це можна зробити явним наступним чином. Припустімо, що обидва розподіли ймовірності та параметризовано деяким (можливо, багатовимірним) параметром . Розгляньмо тоді два близькі значення та , такі, що параметр відрізняється лише на невелику величину від значення параметру . Конкретно, до першого порядку матимемо (із застосуванням ейнштейнового запису підсумовування)
де є невеличкою зміною в напрямку , а є відповідним темпом зміни в розподілі ймовірності. Оскільки розходження Кульбака — Лейблера має нульовий абсолютний мінімум для , тобто, , воно змінюється в маленьких параметрах лише до другого порядку. Формальніше, як і для будь-якого мінімуму, перша похідна цього розходження зникає
і за розкладом Тейлора маємо до другого порядку
де матриця Гессе розходження
мусить бути додатно напівозначеною. Якщо дозволити змінюватися (й опустити підіндекс 0), то гессіан визначатиме (можливо, вироджену) ріманову метрику на просторі параметру θ, що називають інформаційною метрикою Фішера.
Теорема інформаційної метрики Фішера
Коли задовольняє наступні нормативні умови:
- існують,
де ξ є незалежною від ρ
тоді
Відношення до інших величин теорії інформації
Багато інших величин теорії інформації можливо інтерпретувати як застосування розходження Кульбака — Лейблера до особливих випадків.
Власна інформація
Власну інформацію, відому також як інформаційний вміст сигналу, випадкової змінної або події, означено як від'ємний логарифм імовірності трапляння заданого результату.
При застосуванні до дискретної випадкової змінної власну інформацію може бути представлено як[]
є розходженням Кульбака — Лейблера розподілу ймовірності від дельти Кронекера, що представляє впевненість, що — тобто, число додаткових біт, що мусить бути передано, щоби ідентифікувати , якби отримувачеві був доступним розподіл імовірності , а не той факт, що .
Взаємна інформація
є розходженням Кульбака — Лейблера добутку двох розподілів відособлених ймовірностей від спільного розподілу ймовірності — тобто, математичним сподіванням числа бітів, яке мусить бути передано, щоби ідентифікувати та , якщо їх кодовано із застосуванням лише їхніх відособлених розподілів замість спільного розподілу. Рівнозначно, якщо спільна ймовірність є відомою, то це є математичним сподіванням числа додаткових бітів, які мусить бути в середньому надіслано, щоби ідентифікувати , якщо значення ще не є відомим отримувачеві.
Шеннонова ентропія
є числом бітів, які мало би бути передано, щоби ідентифікувати з однаково ймовірних можливостей, меншим розходженням Кульбака — Лейблера рівномірного розподілу [en] , , від істинного розподілу — тобто, меншим за математичне сподівання числа заощаджених бітів, які мало би бути передано, якби значення було закодовано відповідно до рівномірного розподілу замість істинного розподілу .
Умовна ентропія
є числом бітів, які мало би бути передано, щоби ідентифікувати з однаково ймовірних можливостей, меншим розходженням Кульбака — Лейблера добутку розподілів від істинного спільного розподілу — тобто, меншим за математичне сподівання числа заощаджених бітів, які мало би бути передано, якби значення було кодовано відповідно до рівномірного розподілу замість умовного розподілу змінної за заданого значення .
Перехресна ентропія
Перехресна ентропія між двома розподілами ймовірності вимірює усереднене числом бітів, необхідних, щоби ідентифікувати подію з набору можливостей, якщо застосовувана схема кодування ґрунтується на заданому розподілі ймовірності замість «істинного» розподілу . Відтак, перехресну ентропію двох розподілів та над одним і тим же ймовірнісним простором означено наступним чином:[]
Баєсове уточнювання
У баєсовій статистиці розходження Кульбака — Лейблера можливо застосовувати як міру приросту інформації при переході від апріорного розподілу до апостеріорного розподілу: . Якщо виявлено деякий новий факт , його може бути використано, щоби уточнити апостеріорний розподіл для з до нового апостеріорного розподілу із застосуванням теореми Баєса:
Цей розподіл має нову [en]:
яка може бути меншою або більшою за первинну ентропію . Проте, з точки зору нового розподілу ймовірності, можливо оцінити, що застосування первинного коду на основі замість нового коду на основі додало би таке очікуване число бітів
до довжини повідомлення. Воно відтак представляє величину корисної інформації, або приріст інформації, про , що за нашою оцінкою ми дізналися, виявивши .
Якщо потім надходять подальші дані, , то розподіл імовірності для може бути уточнено далі, щоби дати нове найкраще припущення . Якщо повторно дослідити приріст інформації для застосування замість , то виявиться, що він може бути як більшим, так і меншим за оцінений минулого разу:
- може бути ≤ або > за
і, таким чином, об'єднаний приріст інформації не підкоряється нерівності трикутника:
- може бути <, = або > за
Все, що можливо сказати, це що в середньому при усереднюванні із застосуванням ці дві сторони будуть приблизно рівними.
Баєсове планування експериментів
Поширеною метою в [en] є максимізувати математичне сподівання розходження Кульбака — Лейблера між апріорним та апостеріорним. Коли апостеріорні наближено вважають нормальними розподілами, то план, що максимізує математичне сподівання розходження Кульбака — Лейблера, називають [en].
Розрізнювальна інформація
Розходження Кульбака — Лейблера можливо також розглядати як очікувану розрі́знювальну інформа́цію (англ. discrimination information) для над : середню інформацію на зразок для розрізнення на користь гіпотези проти гіпотези , коли гіпотеза є істинною. Іншою назвою цієї величини, даною їй [en], є очікувана для над , якої варто чекати від кожного зразка.
Очікувана вага свідчення для над не є тим же, що й приріст інформації про розподіл імовірності цих гіпотез, очікуваний на зразок,
Як функцію корисності в баєсовім плануванні експерименту, щоби обирати оптимальне наступне питання для дослідження, можливо використовувати будь-яку з цих двох величин, але вони загалом вестимуть до дещо різних стратегій експериментування.
На ентропійній шкалі приросту інформації різниця між майже впевненістю та абсолютною впевненістю є дуже маленькою — кодування відповідно до майже впевненості вимагає заледве більше бітів, ніж кодування відповідно до впевненості абсолютної. З іншого боку, на [en]-шкалі, що випливає з ваги свідчення, різниця між цими двома є величезною — можливо, нескінченною; це може віддзеркалювати різницю між тим, щоби бути майже впевненими (на ймовірнісному рівні), що, скажімо, гіпотеза Рімана є правильною, в порівнянні з тим, щоби бути впевненими в її правильності, оскільки вона має математичне доведення. Ці дві різні шкали функції втрат для невизначеності є корисними обидві, відповідно до того, наскільки добре кожна з них віддзеркалює певні обставини задачі, що розглядають.
Принцип мінімальної розрізнювальної інформації
Ідея розходження Кульбака — Лейблера як розрізнювальної інформації привела Кульбака до пропозиції принципу мініма́льної розрі́знювальної інформа́ції (МРІ, англ. Minimum Discrimination Information, MDI): за наявності нових фактів повинно бути обрано новий розподіл , що є якомога важче розрізнити від первинного розподілу ; так що нові дані продукують якомога менший приріст інформації .
Наприклад, якщо був апріорний розподіл над та , і згодом дізналися, що істинним розподілом був , то розходженням Кульбака — Лейблера між новим спільним розподілом для та , , та ранішим апріорним розподілом, буде
тобто, сума розходження Кульбака — Лейблера , апріорного розподілу , від уточненого розподілу , та математичного сподівання (із застосуванням розподілу ймовірності ) розходження Кульбака — Лейблера апріорного умовного розподілу від нового умовного розподілу . (Зауважте, що крайнє математичне сподівання часто називають умовним розходженням Кульбака — Лейблера, англ. conditional Kullback–Leibler divergence, (або умовною відносною ентропією, англ. conditional relative entropy), і позначують ) Вона мінімізується, якщо над усім носієм ; і зауважмо, що цей результат включає теорему Баєса, якщо новий розподіл є фактично δ-функцією, що представляє впевненість у тім, що має одне певне значення.
МРІ можливо розглядати як розширення [en] Лапласа, та [en] [en]. Зокрема, вона є природним розширенням принципу максимальної ентропії з дискретних на неперервні розподіли, для яких шеннонова ентропія перестає бути настільки корисною (див. диференціальну ентропію), але розходження Кульбака — Лейблера залишається настільки ж відповідним.
В інженерній літературі МРІ іноді називають принципом мінімальної перехресної ентропії (МПЕ, англ. Principle of Minimum Cross-Entropy, MCE), або, для скорочення, англ. Minxent. Мінімізування розходження Кульбака — Лейблера від до по відношенню до є рівнозначним мінімізуванню перехресної ентропії та , оскільки
що є доречним, якщо намагатися обрати адекватне наближення . Проте так же часто це й не є завданням, якого намагаються досягти. Натомість, так же часто це є деякою незмінною апріорною орієнтирною мірою, а
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ne slid plutati z divergenciyeyu v vektornomu chislenni V matematichnij statistici rozho dzhennya diverge nciya abo vi dstan Kulbaka Lejblera sho takozh nazivayut vidno snoyu entropi yeyu angl Kullback Leibler divergence relative entropy ye miroyu togo naskilki odin rozpodil imovirnosti vidriznyayetsya vid inshogo etalonnogo rozpodilu jmovirnosti 1 2 Do jogo zastosuvan nalezhat vidno sna shennonova entropi ya v informacijnih sistemah vipadko vist angl randomness u neperervnih chasovih ryadah ta pri rist informa ciyi angl information gain pri porivnyuvanni statistichnih modelej visnovuvannya Na protivagu do riznovidnosti informaciyi en vono ye asimetrichnoyu mizhrozpodilovoyu miroyu i vidtak ne vidpovidaye vimogam statistichnoyi metriki rozkidu V prostomu vipadku nulove rozhodzhennya Kulbaka Lejblera pokazuye sho dva rozglyadani rozpodili ye identichnimi Prostishimi slovami vono ye miroyu nespodivanosti z riznomanitnimi zastosuvannyami takimi yak prikladna statistika gidromehanika nejronauka ta mashinne navchannya Zmist 1 Etimologiya 2 Oznachennya 3 Prostij priklad 4 Interpretaciyi 5 Harakterizuvannya 6 Obgruntuvannya 7 Vlastivosti 8 Prikladi 8 1 Bagatovimirni normalni rozpodili 9 Vidnoshennya do metrik 9 1 Informacijna metrika Fishera 9 2 Teorema informacijnoyi metriki Fishera 10 Vidnoshennya do inshih velichin teoriyi informaciyi 10 1 Vlasna informaciya 10 2 Vzayemna informaciya 10 3 Shennonova entropiya 10 4 Umovna entropiya 10 5 Perehresna entropiya 11 Bayesove utochnyuvannya 11 1 Bayesove planuvannya eksperimentiv 12 Rozriznyuvalna informaciya 12 1 Princip minimalnoyi rozriznyuvalnoyi informaciyi 13 Vidnoshennya do dostupnoyi roboti 14 Kvantova teoriya informaciyi 15 Vidnoshennya mizh modelyami ta dijsnistyu 16 Usimetrene rozhodzhennya 17 Vidnoshennya do inshih mir imovirnisnoyi vidstani 18 Vidnimannya danih 19 Div takozh 20 Primitki 21 PosilannyaEtimologiyared Rozhodzhennya Kulbaka Lejblera bulo zaproponovano 1951 roku Solomonom Kulbakom ta Richardom Lejblerom en yak oriyento vane rozho dzhennya angl directed divergence mizh dvoma rozpodilami Kulbak viddavav perevagu terminovi informa ciya rozri znennya angl discrimination information 3 Ce rozhodzhennya obgovoreno v knizi Kulbaka 1959 roku Teoriya informaciyi ta statistika 2 Oznachennyared Dlya diskretnih rozpodiliv jmovirnosti P displaystyle P nbsp ta Q displaystyle Q nbsp viznachenih na odnomu j tomu zh imovirnisnomu prostori rozhodzhennyam Kulbaka Lejblera oznacheno 4 D KL P Q x X P x log Q x P x displaystyle D text KL P parallel Q sum x in mathcal X P x log left frac Q x P x right nbsp 1 sho ye rivnoznachnim D KL P Q x X P x log P x Q x displaystyle D text KL P parallel Q sum x in mathcal X P x log left frac P x Q x right nbsp Inshimi slovami vono ye matematichnim spodivannyam logarifmichnoyi riznici mizh imovirnostyami P displaystyle P nbsp ta Q displaystyle Q nbsp de matematichne spodivannya berut iz zastosuvannyam jmovirnostej P displaystyle P nbsp Rozhodzhennya Kulbaka Lejblera mozhlivo viznachiti lishe yaksho Q x 0 displaystyle Q x 0 nbsp dlya bud yakogo x displaystyle x nbsp oznachaye P x 0 displaystyle P x 0 nbsp absolyutna neperervnist Koli P x displaystyle P x nbsp ye nulem vnesok vidpovidnogo chlenu rozcinyuyut yak nulovij oskilki lim x 0 x log x 0 displaystyle lim x to 0 x log x 0 nbsp Dlya rozpodiliv P displaystyle P nbsp ta Q displaystyle Q nbsp neperervnoyi vipadkovoyi zminnoyi rozhodzhennyam Kulbaka Lejblera oznachuyut integral 5 s 55 D KL P Q p x log p x q x d x displaystyle D text KL P parallel Q int infty infty p x log left frac p x q x right dx nbsp 2 de simvolami p displaystyle p nbsp ta q displaystyle q nbsp poznacheno gustini imovirnosti P displaystyle P nbsp ta Q displaystyle Q nbsp Zagalnishe yaksho P displaystyle P nbsp ta Q displaystyle Q nbsp ye jmovirnisnimi mirami nad mnozhinoyu X displaystyle mathcal X nbsp a P displaystyle P nbsp ye absolyutno neperervnoyu shodo Q displaystyle Q nbsp to rozhodzhennyam Kulbaka Lejblera vid Q displaystyle Q nbsp do P displaystyle P nbsp oznachuyut D KL P Q X log d P d Q d P displaystyle D text KL P parallel Q int mathcal X log left frac dP dQ right dP nbsp de d P d Q displaystyle frac dP dQ nbsp ye pohidnoyu Radona Nikodima P displaystyle P nbsp shodo Q displaystyle Q nbsp i za umovi isnuvannya pravobichnogo virazu Ce mozhe buti rivnoznachno zgidno lancyugovogo pravila zapisano yak D KL P Q X log d P d Q d P d Q d Q displaystyle D text KL P parallel Q int mathcal X log left frac dP dQ right frac dP dQ dQ nbsp sho ye entropiyeyu P displaystyle P nbsp vidnosno Q displaystyle Q nbsp U prodovzhennya cogo vipadku yaksho m displaystyle mu nbsp ye bud yakoyu miroyu na X displaystyle mathcal X nbsp dlya yakoyi isnuyut p d P d m displaystyle p frac dP d mu nbsp ta q d Q d m displaystyle q frac dQ d mu nbsp sho oznachaye sho p displaystyle p nbsp ta q displaystyle q nbsp ye absolyutno neperervnimi shodo m displaystyle mu nbsp to rozhodzhennya Kulbaka Lejblera vid Q displaystyle Q nbsp do P displaystyle P nbsp zadayut yak D KL P Q X p log p q d m displaystyle D text KL P parallel Q int mathcal X p log left frac p q right d mu nbsp Logarifmi v cih formulah berut za osnovoyu en 2 yaksho informaciyu vimiryuyut v odinicyah bitiv abo za osnovoyu e displaystyle e nbsp yaksho informaciyu vimiryuyut v natah Bilshist formul sho zaluchayut rozhodzhennya Kulbaka Lejblera vikonuyutsya ne zalezhno vid osnovi logarifmu Isnuyut rizni ugodi yak posilatisya na D KL P Q displaystyle D text KL P parallel Q nbsp slovami Chasto na nogo posilayutsya yak na rozhodzhennya mizh P displaystyle P nbsp ta Q displaystyle Q nbsp prote ce ne peredaye fundamentalnoyi asimetrichnosti v comu vidnoshenni Inodi yak u cij statti mozhna znajti jogo opis yak rozhodzhennya P displaystyle P nbsp vid abo shodo Q displaystyle Q nbsp Ce viddzerkalyuye asimetrichnist bayesovogo visnovuvannya sho pochinayetsya vid apriornogo Q displaystyle Q nbsp i utochnyuyetsya do aposteriornogo P displaystyle P nbsp Prostij prikladred Kulbak 2 navodit prostij priklad tablicya 2 1 priklad 2 1 Nehaj P displaystyle P nbsp ta Q displaystyle Q nbsp ye rozpodilami pokazanimi v tablici j na malyunku P displaystyle P nbsp ye rozpodilom z livogo boku malyunku binomialnim rozpodilom z N 2 displaystyle N 2 nbsp ta p 0 4 displaystyle p 0 4 nbsp Q displaystyle Q nbsp ye rozpodilom z pravogo boku malyunku diskretnim rivnomirnim rozpodilom z troma mozhlivimi rezultatami x 0 displaystyle x 0 nbsp 1 displaystyle 1 nbsp chi 2 displaystyle 2 nbsp tobto X 0 1 2 displaystyle mathcal X 0 1 2 nbsp kozhen z imovirnistyu p 1 3 displaystyle p 1 3 nbsp nbsp x 0 1 2 Rozpodil P x 0 36 0 48 0 16 Rozpodil Q x 0 333 0 333 0 333 KL rozhodzhennya D KL P Q displaystyle D text KL P parallel Q nbsp ta D KL Q P displaystyle D text KL Q parallel P nbsp obchislyuyut iz zastosuvannyam oznachennya 1 nastupnim chinom Cej priklad vikoristovuye naturalnij logarifm z osnovoyu e poznachuvanij ln displaystyle operatorname ln nbsp shobi otrimati rezultati v natah div Odinici vimiryuvannya informaciyi D KL P Q x X P x ln P x Q x 0 36 ln 0 36 0 333 0 48 ln 0 48 0 333 0 16 ln 0 16 0 333 0 0852996 displaystyle begin aligned D text KL P parallel Q amp sum x in mathcal X P x ln left frac P x Q x right amp 0 36 ln left frac 0 36 0 333 right 0 48 ln left frac 0 48 0 333 right 0 16 ln left frac 0 16 0 333 right amp 0 0852996 end aligned nbsp D KL Q P x X Q x ln Q x P x 0 333 ln 0 333 0 36 0 333 ln 0 333 0 48 0 333 ln 0 333 0 16 0 097455 displaystyle begin aligned D text KL Q parallel P amp sum x in mathcal X Q x ln left frac Q x P x right amp 0 333 ln left frac 0 333 0 36 right 0 333 ln left frac 0 333 0 48 right 0 333 ln left frac 0 333 0 16 right amp 0 097455 end aligned nbsp Interpretaciyired Rozhodzhennya Kulbaka Lejblera vid Q displaystyle Q nbsp do P displaystyle P nbsp chasto poznachuyut cherez D KL P Q displaystyle D text KL P parallel Q nbsp V konteksti mashinnogo navchannya D KL P Q displaystyle D text KL P parallel Q nbsp chasto nazivayut prirostom informaciyi en otrimuvanim pri zastosovuvanni Q displaystyle Q nbsp zamist P displaystyle P nbsp Za analogiyeyu z teoriyeyu informaciyi jogo takozh nazivayut vidno snoyu entropi yeyu angl relative entropy P displaystyle P nbsp shodo Q displaystyle Q nbsp V konteksti teoriyi koduvannya D KL P Q displaystyle D text KL P parallel Q nbsp mozhlivo tlumachiti yak vimiryuvannya matematichnogo spodivannya chisla dodatkovih bitiv neobhidnih dlya koduvannya zrazkiv z P displaystyle P nbsp iz zastosuvannyam kodu optimizovanogo dlya Q displaystyle Q nbsp zamist kodu optimizovanogo dlya P displaystyle P nbsp Virazhene movoyu bayesovogo visnovuvannya D KL P Q displaystyle D text KL P parallel Q nbsp ye miroyu prirostu informaciyi pri pereglyadi perekonan vid apriornogo rozpodilu jmovirnosti Q displaystyle Q nbsp do aposteriornogo rozpodilu jmovirnosti P displaystyle P nbsp Inshimi slovami ce velichina informaciyi sho vtrachayetsya pri zastosuvanni Q displaystyle Q nbsp dlya nablizhennya P displaystyle P nbsp 6 U zastosuvannyah P displaystyle P nbsp zazvichaj predstavlyaye istinnij rozpodil danih sposterezhen abo tochno obchislenij teoretichnij rozpodil todi yak Q displaystyle Q nbsp zazvichaj predstavlyaye teoriyu model opis abo nablizhennya P displaystyle P nbsp Shobi znahoditi rozpodil Q displaystyle Q nbsp yakij ye najblizhchim do P displaystyle P nbsp mi mozhemo minimizuvati KL rozhodzhennya obchislyuyuchi informacijnu proyekciyu en Rozhodzhennya Kulbaka Lejblera ye okremim vipadkom shirshogo klasu rozhodzhen en sho nazivayut f rozhodzhennyami en a takozh klasu bregmanovih rozhodzhen en Vono ye yedinim takim rozhodzhennyam nad imovirnostyami sho nalezhit do oboh klasiv I hoch jogo j chasto intuyitivno sprijmayut yak sposib vimiryuvannya vidstani mizh rozpodilami jmovirnosti rozhodzhennya Kulbaka Lejblera ne ye spravzhnoyu metrikoyu Z nim ne dotrimuyetsya nerivnist trikutnika i v zagalnomu vipadku D KL P Q displaystyle D text KL P parallel Q nbsp ne dorivnyuye D KL Q P displaystyle D text KL Q parallel P nbsp Prote jogo neskinchenno malij en viglyad a same jogo gessian daye metrichnij tenzor vidomij yak fisherova informacijna metrika en Harakterizuvannyared Artur Gobson doviv sho rozhodzhennya Kulbaka Lejblera ye yedinoyu miroyu vidminnosti mizh rozpodilami jmovirnosti yaka zadovolnyaye deyaki bazhani vlastivosti sho ye kanonichnim rozshirennyam prisutnih u shiroko vzhivanomu harakterizuvanni entropiyi 7 Otzhe vzayemna informaciya ye yedinoyu miroyu vzayemnoyi zalezhnosti yaka dotrimuyetsya pevnih pov yazanih umov oskilki yiyi mozhe buti viznacheno v terminah rozhodzhennya Kulbaka Lejblera Isnuye takozh bayesove harakterizuvannya rozhodzhennya Kulbaka Lejblera 8 Obgruntuvannyared nbsp Ilyustraciya rozhodzhennya Kulbaka Lejblera KL dlya dvoh normalnih rozpodiliv Chitko vidno tipovu asimetrichnist rozhodzhennya Kulbaka Lejblera V teoriyi informaciyi teorema Krafta Makmillana vstanovlyuye sho bud yaku bezposeredno rozkodovuvanu shemu koduvannya dlya koduvannya povidomlennya dlya viyavlyannya odnogo znachennya x i displaystyle x i nbsp z ryadu mozhlivostej X displaystyle X nbsp mozhlivo rozglyadati yak predstavlennya neyavnogo rozpodilu jmovirnosti q x i 2 l i displaystyle q x i 2 l i nbsp nad X displaystyle X nbsp de l i displaystyle l i nbsp ye dovzhinoyu kodu dlya x i displaystyle x i nbsp v bitah Otzhe rozhodzhennya Kulbaka Lejblera mozhlivo interpretuvati yak matematichne spodivannya dodatkovoyi dovzhini povidomlennya nad rivnem yaka musit peredavatisya yaksho zastosovuyetsya kod sho ye optimalnim dlya zadanogo nepravilnogo rozpodilu Q displaystyle Q nbsp v porivnyanni z zastosuvannyam kodu sho gruntuyetsya na istinnomu rozpodili P displaystyle P nbsp D KL P Q x X p x log q x x X p x log p x H P Q H P displaystyle begin aligned D text KL P parallel Q amp sum x in mathcal X p x log q x sum x in mathcal X p x log p x amp mathrm H P Q mathrm H P end aligned nbsp de H P Q displaystyle mathrm H P Q nbsp ye perehresnoyu entropiyeyu P displaystyle P nbsp ta Q displaystyle Q nbsp a H P displaystyle mathrm H P nbsp ye entropiyeyu P displaystyle P nbsp Zauvazhte takozh sho isnuye zv yazok mizh rozhodzhennyam Kulbaka Lejblera ta funkciyeyu vidhilen en v teoriyi velikih vidhilen en 9 10 Vlastivostired Rozhodzhennya Kulbaka Lejblera ye zavzhdi nevid yemnim D KL P Q 0 displaystyle D text KL P parallel Q geq 0 nbsp dd rezultat vidomij yak nerivnist Gibbza en z nulovim D KL P Q displaystyle D text KL P parallel Q nbsp yaksho i lishe yaksho P Q displaystyle P Q nbsp majzhe skriz Entropiya H P displaystyle mathrm H P nbsp vidtak vstanovlyuye minimalne znachennya dlya perehresnoyi entropiyi H P Q displaystyle mathrm H P Q nbsp matematichnogo spodivannya chisla bitiv neobhidnih pri vikoristanni kodu na osnovi Q displaystyle Q nbsp zamist P displaystyle P nbsp i vidtak rozhodzhennya Kulbaka Lejblera predstavlyaye matematichne spodivannya chisla dodatkovih bitiv sho musyat peredavatisya shobi identifikuvati znachennya x displaystyle x nbsp vibrane z X displaystyle X nbsp yaksho zastosovuyetsya kod sho vidpovidaye rozpodilovi jmovirnosti Q displaystyle Q nbsp a ne istinnomu rozpodilovi P displaystyle P nbsp Rozhodzhennya Kulbaka Lejblera zalishayetsya odnoznachno oznachenim i dlya neperervnih rozpodiliv a do togo zh she j invariantnim vidnosno peretvoren parametriv Napriklad yaksho zdijsnyuyut peretvorennya zminnoyi x displaystyle x nbsp na zminnu y x displaystyle y x nbsp to oskilki P x d x P y d y displaystyle P x dx P y dy nbsp ta Q x d x Q y d y displaystyle Q x dx Q y dy nbsp rozhodzhennya Kulbaka Lejblera mozhe buti perepisano D KL P Q x a x b P x log P x Q x d x y a y b P y log P y d y d x Q y d y d x d y y a y b P y log P y Q y d y displaystyle begin aligned D text KL P parallel Q amp int x a x b P x log left frac P x Q x right dx 6pt amp int y a y b P y log left frac P y frac dy dx Q y frac dy dx right dy int y a y b P y log left frac P y Q y right dy end aligned nbsp dd de y a y x a displaystyle y a y x a nbsp ta y b y x b displaystyle y b y x b nbsp I hocha j peredbachalosya sho peretvorennya bulo neperervnim ale ce ne ye obov yazkovim Ce takozh pokazuye sho rozhodzhennya Kulbaka Lejblera daye rozmirnisno stijku velichinu oskilki yaksho x displaystyle x nbsp ye zminnoyu z rozmirnistyu to P x displaystyle P x nbsp ta Q x displaystyle Q x nbsp takozh mayut rozmirnosti bo napriklad P x d x displaystyle P x dx nbsp rozmirnostej ne maye Argument logarifmichnogo chlenu ye j zalishayetsya bezrozmirnisnim yak vin i musit Otzhe ce mozhlivo rozglyadati yak pevnim chinom fundamentalnishu velichinu nizh deyaki inshi vlastivosti v teoriyi informaciyi 11 taki yak vlasna informaciya ta shennonova entropiya sho dlya ne diskretnih jmovirnostej mozhut stavati neviznachenimi abo vid yemnimi Rozhodzhennya Kulbaka Lejblera ye aditivnim en dlya nezalezhnih rozpodiliv praktichno tak samo yak i shennonova entropiya Yaksho P 1 P 2 displaystyle P 1 P 2 nbsp ye nezalezhnimi rozpodilami zi spilnim rozpodilom P x y P 1 x P 2 y displaystyle P x y P 1 x P 2 y nbsp i Q Q 1 Q 2 displaystyle Q Q 1 Q 2 nbsp analogichno to D KL P Q D KL P 1 Q 1 D KL P 2 Q 2 displaystyle D text KL P parallel Q D text KL P 1 parallel Q 1 D text KL P 2 parallel Q 2 nbsp dd Rozhodzhennya Kulbaka Lejblera D KL P Q displaystyle D text KL P parallel Q nbsp ye opuklim v pari funkcij masi jmovirnosti p q displaystyle p q nbsp tobto yaksho p 1 q 1 displaystyle p 1 q 1 nbsp ta p 2 q 2 displaystyle p 2 q 2 nbsp ye dvoma parami funkcij masi jmovirnosti to D KL l p 1 1 l p 2 l q 1 1 l q 2 l D KL p 1 q 1 1 l D KL p 2 q 2 for 0 l 1 displaystyle D text KL lambda p 1 1 lambda p 2 parallel lambda q 1 1 lambda q 2 leq lambda D text KL p 1 parallel q 1 1 lambda D text KL p 2 parallel q 2 text for 0 leq lambda leq 1 nbsp dd Prikladired Bagatovimirni normalni rozpodilired Pripustimo sho mi mayemo dva bagatovimirni normalni rozpodili z serednimi m 0 m 1 displaystyle mu 0 mu 1 nbsp ta z nevirodzhenimi kovariacijnimi matricyami S 0 S 1 displaystyle Sigma 0 Sigma 1 nbsp Yaksho ci dva rozpodili mayut odnakovu rozmirnist k displaystyle k nbsp to rozhodzhennya Kulbaka Lejblera mizh nimi ye takim 12 s 13 D KL N 0 N 1 1 2 tr S 1 1 S 0 m 1 m 0 T S 1 1 m 1 m 0 k ln det S 1 det S 0 displaystyle D text KL mathcal N 0 parallel mathcal N 1 frac 1 2 left operatorname tr left Sigma 1 1 Sigma 0 right mu 1 mu 0 mathsf T Sigma 1 1 mu 1 mu 0 k ln left frac det Sigma 1 det Sigma 0 right right nbsp Logarifm v krajnomu chleni musit bratisya za osnovoyu e oskilki vsi chleni krim krajnogo ye logarifmami za osnovoyu e viraziv sho ye abo koeficiyentami funkciyi gustini abo inakshe vinikayut naturalno Tozh ce rivnyannya daye rezultat vimiryuvanij v natah Dilennya vsogo navedenogo vishe virazu na l n 2 displaystyle ln 2 nbsp daye rozhodzhennya v bitah Osoblivim vipadkom sho ye shiroko vzhivanoyu velichinoyu u variacijnomu visnovuvanni en ye KL rozhodzhennya mizh diagonalnim bagatovimirnim normalnim ta standartnim normalnim rozpodilami D KL N m 1 m k T diag s 1 2 s k 2 N 0 I 1 2 i 1 k s i 2 m i 2 ln s i 2 1 displaystyle D text KL left mathcal N left mu 1 ldots mu k mathsf T operatorname diag sigma 1 2 ldots sigma k 2 right parallel mathcal N left mathbf 0 mathbf I right right 1 over 2 sum i 1 k sigma i 2 mu i 2 ln sigma i 2 1 nbsp Vidnoshennya do metrikred Mozhna bulo bi spokusitisya nazvati rozhodzhennya Kulbaka Lejblera metrikoyu vidstani na prostori rozpodiliv imovirnosti ale ce ne bude pravilnim oskilki vono ne ye simetrichnim tobto D KL P Q D KL Q P displaystyle D text KL P parallel Q neq D text KL Q parallel P nbsp yak i ne zadovolnyaye vono nerivnist trikutnika Nezvazhayuchi na ce buduchi dometrikoyu en vono porodzhuye topologiyu na prostori rozpodiliv imovirnosti Konkretnishe yaksho P 1 P 2 displaystyle P 1 P 2 ldots nbsp ye poslidovnistyu rozpodiliv takoyu sho lim n D KL P n Q 0 displaystyle lim n to infty D text KL P n parallel Q 0 nbsp to kazhut sho P n D Q displaystyle P n xrightarrow D Q nbsp Z nerivnosti Prinskera en viplivaye sho P n D P P n T V P displaystyle P n xrightarrow D P Rightarrow P n xrightarrow TV P nbsp de krajnye vidpovidaye zvichajnij zbizhnosti v povnij variaciyi Dali Renyi 1970 1961 13 14 Informacijna metrika Fisherared Rozhodzhennya Kulbaka Lejblera ye bezposeredno pov yazanim z informacijnoyu metrikoyu Fishera en Ce mozhna zrobiti yavnim nastupnim chinom Pripustimo sho obidva rozpodili jmovirnosti P displaystyle P nbsp ta Q displaystyle Q nbsp parametrizovano deyakim mozhlivo bagatovimirnim parametrom 8 displaystyle theta nbsp Rozglyanmo todi dva blizki znachennya P P 8 displaystyle P P theta nbsp ta Q P 8 0 displaystyle Q P theta 0 nbsp taki sho parametr 8 displaystyle theta nbsp vidriznyayetsya lishe na neveliku velichinu vid znachennya parametru 8 0 displaystyle theta 0 nbsp Konkretno do pershogo poryadku matimemo iz zastosuvannyam ejnshtejnovogo zapisu pidsumovuvannya P 8 P 8 0 D 8 j P j 8 0 displaystyle P theta P theta 0 Delta theta j P j theta 0 cdots nbsp de D 8 j 8 8 0 j displaystyle Delta theta j theta theta 0 j nbsp ye nevelichkoyu zminoyu 8 displaystyle theta nbsp v napryamku j displaystyle j nbsp a P j 8 0 P 8 j 8 0 displaystyle P j left theta 0 right frac partial P partial theta j theta 0 nbsp ye vidpovidnim tempom zmini v rozpodili jmovirnosti Oskilki rozhodzhennya Kulbaka Lejblera maye nulovij absolyutnij minimum dlya P Q displaystyle P Q nbsp tobto 8 8 0 displaystyle theta theta 0 nbsp vono zminyuyetsya v malenkih parametrah D 8 j displaystyle Delta theta j nbsp lishe do drugogo poryadku Formalnishe yak i dlya bud yakogo minimumu persha pohidna cogo rozhodzhennya znikaye 8 j 8 8 0 D K L P 8 P 8 0 0 displaystyle left frac partial partial theta j right theta theta 0 D KL P theta parallel P theta 0 0 nbsp i za rozkladom Tejlora mayemo do drugogo poryadku D KL P 8 P 8 0 1 2 D 8 j D 8 k g j k 8 0 displaystyle D text KL P theta parallel P theta 0 frac 1 2 Delta theta j Delta theta k g jk theta 0 cdots nbsp de matricya Gesse rozhodzhennya g j k 8 0 2 8 j 8 k 8 8 0 D KL P 8 P 8 0 displaystyle g jk theta 0 left frac partial 2 partial theta j partial theta k right theta theta 0 D text KL P theta parallel P theta 0 nbsp musit buti dodatno napivoznachenoyu Yaksho dozvoliti 8 0 displaystyle theta 0 nbsp zminyuvatisya j opustiti pidindeks 0 to gessian g j k 8 displaystyle g jk theta nbsp viznachatime mozhlivo virodzhenu rimanovu metriku na prostori parametru 8 sho nazivayut informacijnoyu metrikoyu Fishera Teorema informacijnoyi metriki Fisherared Koli p x r displaystyle p x rho nbsp zadovolnyaye nastupni normativni umovi log p r 2 log p r 2 3 log p r 3 displaystyle tfrac partial log p partial rho tfrac partial 2 log p partial rho 2 tfrac partial 3 log p partial rho 3 nbsp isnuyut p r lt F x x 0 F x d x lt 2 p r 2 lt G x x 0 G x d x lt 3 log p r 3 lt H x x 0 p x 0 H x d x lt 3 lt displaystyle begin aligned left frac partial p partial rho right amp lt F x int x 0 infty F x dx lt infty left frac partial 2 p partial rho 2 right amp lt G x int x 0 infty G x dx lt infty left frac partial 3 log p partial rho 3 right amp lt H x int x 0 infty p x 0 H x dx lt xi lt infty end aligned nbsp de 3 ye nezalezhnoyu vid r x 0 p x r r r 0 d x x 0 2 p x r r 2 r 0 d x 0 displaystyle left int x 0 infty frac partial p x rho partial rho right rho 0 dx left int x 0 infty frac partial 2 p x rho partial rho 2 right rho 0 dx 0 nbsp todi D p x 0 p x r c r 2 2 O r 3 as r 0 displaystyle mathcal D p x 0 parallel p x rho frac c rho 2 2 mathcal O rho 3 text as rho to 0 nbsp Vidnoshennya do inshih velichin teoriyi informaciyired Bagato inshih velichin teoriyi informaciyi mozhlivo interpretuvati yak zastosuvannya rozhodzhennya Kulbaka Lejblera do osoblivih vipadkiv Vlasna informaciyared Dokladnishe Vlasna informaciya Vlasnu informaciyu vidomu takozh yak informacijnij vmist signalu vipadkovoyi zminnoyi abo podiyi oznacheno yak vid yemnij logarifm imovirnosti traplyannya zadanogo rezultatu Pri zastosuvanni do diskretnoyi vipadkovoyi zminnoyi vlasnu informaciyu mozhe buti predstavleno yak dzherelo I m D KL d i m p i displaystyle operatorname operatorname I m D text KL delta im parallel p i nbsp ye rozhodzhennyam Kulbaka Lejblera rozpodilu jmovirnosti P i displaystyle P i nbsp vid delti Kronekera sho predstavlyaye vpevnenist sho i m displaystyle i m nbsp tobto chislo dodatkovih bit sho musit buti peredano shobi identifikuvati i displaystyle i nbsp yakbi otrimuvachevi buv dostupnim rozpodil imovirnosti P i displaystyle P i nbsp a ne toj fakt sho i m displaystyle i m nbsp Vzayemna informaciyared Vzayemna informaciya dzherelo I X Y D KL P X Y P X P Y E X D KL P Y X P Y E Y D KL P X Y P X displaystyle begin aligned operatorname I X Y amp D text KL P X Y parallel P X P Y amp operatorname E X D text KL P Y mid X parallel P Y amp operatorname E Y D text KL P X mid Y parallel P X end aligned nbsp ye rozhodzhennyam Kulbaka Lejblera dobutku P X P Y displaystyle P X P Y nbsp dvoh rozpodiliv vidosoblenih jmovirnostej vid spilnogo rozpodilu jmovirnosti P X Y displaystyle P X Y nbsp tobto matematichnim spodivannyam chisla bitiv yake musit buti peredano shobi identifikuvati X displaystyle X nbsp ta Y displaystyle Y nbsp yaksho yih kodovano iz zastosuvannyam lishe yihnih vidosoblenih rozpodiliv zamist spilnogo rozpodilu Rivnoznachno yaksho spilna jmovirnist P X Y displaystyle P X Y nbsp ye vidomoyu to ce ye matematichnim spodivannyam chisla dodatkovih bitiv yaki musit buti v serednomu nadislano shobi identifikuvati Y displaystyle Y nbsp yaksho znachennya X displaystyle X nbsp she ne ye vidomim otrimuvachevi Shennonova entropiyared Shennonova entropiya dzherelo H X E I X x log N D KL p X x P U X displaystyle begin aligned mathrm H X amp operatorname E operatorname I X x amp log N D text KL p X x parallel P U X end aligned nbsp ye chislom bitiv yaki malo bi buti peredano shobi identifikuvati X displaystyle X nbsp z N displaystyle N nbsp odnakovo jmovirnih mozhlivostej menshim rozhodzhennyam Kulbaka Lejblera rivnomirnogo rozpodilu vipadkovih variat en X displaystyle X nbsp P U X displaystyle P U X nbsp vid istinnogo rozpodilu P X displaystyle P X nbsp tobto menshim za matematichne spodivannya chisla zaoshadzhenih bitiv yaki malo bi buti peredano yakbi znachennya X displaystyle X nbsp bulo zakodovano vidpovidno do rivnomirnogo rozpodilu P U X displaystyle P U X nbsp zamist istinnogo rozpodilu P X displaystyle P X nbsp Umovna entropiyared Umovna entropiya dzherelo H X Y log N D KL P X Y P U X P Y log N D KL P X Y P X P Y D KL P X P U X H X I X Y log N E Y D KL P X Y P U X displaystyle begin aligned mathrm H X mid Y amp log N D text KL P X Y parallel P U X P Y amp log N D text KL P X Y parallel P X P Y D text KL P X parallel P U X amp mathrm H X operatorname I X Y amp log N operatorname E Y bigl D text KL P X mid Y parallel P U X bigr end aligned nbsp ye chislom bitiv yaki malo bi buti peredano shobi identifikuvati X displaystyle X nbsp z N displaystyle N nbsp odnakovo jmovirnih mozhlivostej menshim rozhodzhennyam Kulbaka Lejblera dobutku rozpodiliv P U X P Y displaystyle P U X P Y nbsp vid istinnogo spilnogo rozpodilu P X Y displaystyle P X Y nbsp tobto menshim za matematichne spodivannya chisla zaoshadzhenih bitiv yaki malo bi buti peredano yakbi znachennya X displaystyle X nbsp bulo kodovano vidpovidno do rivnomirnogo rozpodilu P U X displaystyle P U X nbsp zamist umovnogo rozpodilu P X Y displaystyle P X Y nbsp zminnoyi X displaystyle X nbsp za zadanogo znachennya Y displaystyle Y nbsp Perehresna entropiyared Perehresna entropiya mizh dvoma rozpodilami jmovirnosti vimiryuye userednene chislom bitiv neobhidnih shobi identifikuvati podiyu z naboru mozhlivostej yaksho zastosovuvana shema koduvannya gruntuyetsya na zadanomu rozpodili jmovirnosti q displaystyle q nbsp zamist istinnogo rozpodilu p displaystyle p nbsp Vidtak perehresnu entropiyu dvoh rozpodiliv p displaystyle p nbsp ta q displaystyle q nbsp nad odnim i tim zhe jmovirnisnim prostorom oznacheno nastupnim chinom dzherelo H p q E p log q H p D KL p q displaystyle mathrm H p q operatorname E p log q mathrm H p D text KL p parallel q nbsp Bayesove utochnyuvannyared U bayesovij statistici rozhodzhennya Kulbaka Lejblera mozhlivo zastosovuvati yak miru prirostu informaciyi pri perehodi vid apriornogo rozpodilu do aposteriornogo rozpodilu p x p x I displaystyle p x to p x mid I nbsp Yaksho viyavleno deyakij novij fakt Y y displaystyle Y y nbsp jogo mozhe buti vikoristano shobi utochniti aposteriornij rozpodil dlya X displaystyle X nbsp z p x I displaystyle p x mid I nbsp do novogo aposteriornogo rozpodilu p x y I displaystyle p x mid y I nbsp iz zastosuvannyam teoremi Bayesa p x y I p y x I p x I p y I displaystyle p x mid y I frac p y mid x I p x mid I p y mid I nbsp Cej rozpodil maye novu entropiyu en H p y I x p x y I log p x y I displaystyle mathrm H big p mid y I big sum x p x mid y I log p x mid y I nbsp yaka mozhe buti menshoyu abo bilshoyu za pervinnu entropiyu H p I displaystyle mathrm H p mid I nbsp Prote z tochki zoru novogo rozpodilu jmovirnosti mozhlivo ociniti sho zastosuvannya pervinnogo kodu na osnovi p x I displaystyle p x mid I nbsp zamist novogo kodu na osnovi p x y I displaystyle p x mid y I nbsp dodalo bi take ochikuvane chislo bitiv D KL p y I p I x p x y I log p x y I p x I displaystyle D text KL big p mid y I parallel p mid I big sum x p x mid y I log left frac p x mid y I p x mid I right nbsp do dovzhini povidomlennya Vono vidtak predstavlyaye velichinu korisnoyi informaciyi abo pririst informaciyi pro X displaystyle X nbsp sho za nashoyu ocinkoyu mi diznalisya viyavivshi Y y displaystyle Y y nbsp Yaksho potim nadhodyat podalshi dani Y 2 y 2 displaystyle Y 2 y 2 nbsp to rozpodil imovirnosti dlya x displaystyle x nbsp mozhe buti utochneno dali shobi dati nove najkrashe pripushennya p x y 1 y 2 I displaystyle p x mid y 1 y 2 I nbsp Yaksho povtorno dosliditi pririst informaciyi dlya zastosuvannya p x y 1 I displaystyle p x mid y 1 I nbsp zamist p x I displaystyle p x mid I nbsp to viyavitsya sho vin mozhe buti yak bilshim tak i menshim za ocinenij minulogo razu x p x y 1 y 2 I log p x y 1 y 2 I p x I displaystyle sum x p x mid y 1 y 2 I log left frac p x mid y 1 y 2 I p x mid I right nbsp mozhe buti abo gt za x p x y 1 I log p x y 1 I p x I displaystyle displaystyle sum x p x mid y 1 I log left frac p x mid y 1 I p x mid I right nbsp i takim chinom ob yednanij pririst informaciyi ne pidkoryayetsya nerivnosti trikutnika D KL p y 1 y 2 I p I displaystyle D text KL big p mid y 1 y 2 I parallel p mid I big nbsp mozhe buti lt abo gt za D KL p y 1 y 2 I p y 1 I D KL p y 1 I p I displaystyle D text KL big p mid y 1 y 2 I parallel p mid y 1 I big D text KL big p mid y 1 I parallel p mid I big nbsp Vse sho mozhlivo skazati ce sho v serednomu pri userednyuvanni iz zastosuvannyam p y 2 y 1 x I displaystyle p y 2 mid y 1 x I nbsp ci dvi storoni budut priblizno rivnimi Bayesove planuvannya eksperimentivred Poshirenoyu metoyu v bayesovim planuvanni eksperimentiv en ye maksimizuvati matematichne spodivannya rozhodzhennya Kulbaka Lejblera mizh apriornim ta aposteriornim 15 Koli aposteriorni nablizheno vvazhayut normalnimi rozpodilami to plan sho maksimizuye matematichne spodivannya rozhodzhennya Kulbaka Lejblera nazivayut bayesovim d optimalnim en Rozriznyuvalna informaciyared Rozhodzhennya Kulbaka Lejblera D KL p x H 1 p x H 0 textstyle D text KL bigl p x mid H 1 parallel p x mid H 0 bigr nbsp mozhlivo takozh rozglyadati yak ochikuvanu rozri znyuvalnu informa ciyu angl discrimination information dlya H 1 displaystyle H 1 nbsp nad H 0 displaystyle H 0 nbsp serednyu informaciyu na zrazok dlya rozriznennya na korist gipotezi H 1 displaystyle H 1 nbsp proti gipotezi H 0 displaystyle H 0 nbsp koli gipoteza H 1 displaystyle H 1 nbsp ye istinnoyu 16 Inshoyu nazvoyu ciyeyi velichini danoyu yij I Dzh Gudom en ye ochikuvana vaga svidchennya dlya H 1 displaystyle H 1 nbsp nad H 0 displaystyle H 0 nbsp yakoyi varto chekati vid kozhnogo zrazka Ochikuvana vaga svidchennya dlya H 1 displaystyle H 1 nbsp nad H 0 displaystyle H 0 nbsp ne ye tim zhe sho j pririst informaciyi pro rozpodil imovirnosti p H displaystyle p H nbsp cih gipotez ochikuvanij na zrazok D KL p x H 1 p x H 0 I G D KL p H x p H I displaystyle D text KL p x mid H 1 parallel p x mid H 0 neq IG D text KL p H mid x parallel p H mid I nbsp Yak funkciyu korisnosti v bayesovim planuvanni eksperimentu shobi obirati optimalne nastupne pitannya dlya doslidzhennya mozhlivo vikoristovuvati bud yaku z cih dvoh velichin ale voni zagalom vestimut do desho riznih strategij eksperimentuvannya Na entropijnij shkali prirostu informaciyi riznicya mizh majzhe vpevnenistyu ta absolyutnoyu vpevnenistyu ye duzhe malenkoyu koduvannya vidpovidno do majzhe vpevnenosti vimagaye zaledve bilshe bitiv nizh koduvannya vidpovidno do vpevnenosti absolyutnoyi Z inshogo boku na logit en shkali sho viplivaye z vagi svidchennya riznicya mizh cimi dvoma ye velicheznoyu mozhlivo neskinchennoyu ce mozhe viddzerkalyuvati riznicyu mizh tim shobi buti majzhe vpevnenimi na jmovirnisnomu rivni sho skazhimo gipoteza Rimana ye pravilnoyu v porivnyanni z tim shobi buti vpevnenimi v yiyi pravilnosti oskilki vona maye matematichne dovedennya Ci dvi rizni shkali funkciyi vtrat dlya neviznachenosti ye korisnimi obidvi vidpovidno do togo naskilki dobre kozhna z nih viddzerkalyuye pevni obstavini zadachi sho rozglyadayut Princip minimalnoyi rozriznyuvalnoyi informaciyired Ideya rozhodzhennya Kulbaka Lejblera yak rozriznyuvalnoyi informaciyi privela Kulbaka do propoziciyi principu minima lnoyi rozri znyuvalnoyi informa ciyi MRI angl Minimum Discrimination Information MDI za nayavnosti novih faktiv povinno buti obrano novij rozpodil f displaystyle f nbsp sho ye yakomoga vazhche rozrizniti vid pervinnogo rozpodilu f 0 displaystyle f 0 nbsp tak sho novi dani produkuyut yakomoga menshij pririst informaciyi D KL f f 0 displaystyle D text KL f parallel f 0 nbsp Napriklad yaksho buv apriornij rozpodil p x a displaystyle p x a nbsp nad x displaystyle x nbsp ta a displaystyle a nbsp i zgodom diznalisya sho istinnim rozpodilom a displaystyle a nbsp buv u a displaystyle u a nbsp to rozhodzhennyam Kulbaka Lejblera mizh novim spilnim rozpodilom dlya x displaystyle x nbsp ta a displaystyle a nbsp q x a u a displaystyle q x mid a u a nbsp ta ranishim apriornim rozpodilom bude D KL q x a u a p x a E u a D KL q x a p x a D KL u a p a displaystyle D text KL q x mid a u a parallel p x a operatorname E u a left D text KL q x mid a parallel p x mid a right D text KL u a parallel p a nbsp tobto suma rozhodzhennya Kulbaka Lejblera p a displaystyle p a nbsp apriornogo rozpodilu a displaystyle a nbsp vid utochnenogo rozpodilu u a displaystyle u a nbsp ta matematichnogo spodivannya iz zastosuvannyam rozpodilu jmovirnosti u a displaystyle u a nbsp rozhodzhennya Kulbaka Lejblera apriornogo umovnogo rozpodilu p x a displaystyle p x mid a nbsp vid novogo umovnogo rozpodilu q x a displaystyle q x mid a nbsp Zauvazhte sho krajnye matematichne spodivannya chasto nazivayut umovnim rozhodzhennyam Kulbaka Lejblera angl conditional Kullback Leibler divergence abo umovnoyu vidnosnoyu entropiyeyu angl conditional relative entropy i poznachuyut D KL q x a p x a displaystyle D text KL q x mid a parallel p x mid a nbsp 17 s 22 Vona minimizuyetsya yaksho q x a p x a displaystyle q x mid a p x mid a nbsp nad usim nosiyem u a displaystyle u a nbsp i zauvazhmo sho cej rezultat vklyuchaye teoremu Bayesa yaksho novij rozpodil u a displaystyle u a nbsp ye faktichno d funkciyeyu sho predstavlyaye vpevnenist u tim sho a displaystyle a nbsp maye odne pevne znachennya MRI mozhlivo rozglyadati yak rozshirennya principu nedostatnogo obgruntuvannya en Laplasa ta principu maksimalnoyi entropiyi en E T Dzhejnsa en Zokrema vona ye prirodnim rozshirennyam principu maksimalnoyi entropiyi z diskretnih na neperervni rozpodili dlya yakih shennonova entropiya perestaye buti nastilki korisnoyu div diferencialnu entropiyu ale rozhodzhennya Kulbaka Lejblera zalishayetsya nastilki zh vidpovidnim V inzhenernij literaturi MRI inodi nazivayut principom minimalnoyi perehresnoyi entropiyi MPE angl Principle of Minimum Cross Entropy MCE abo dlya skorochennya angl Minxent Minimizuvannya rozhodzhennya Kulbaka Lejblera vid m displaystyle m nbsp do p displaystyle p nbsp po vidnoshennyu do m displaystyle m nbsp ye rivnoznachnim minimizuvannyu perehresnoyi entropiyi p displaystyle p nbsp ta m displaystyle m nbsp oskilki H p m H p D KL p m displaystyle mathrm H p m mathrm H p D text KL p parallel m nbsp sho ye dorechnim yaksho namagatisya obrati adekvatne nablizhennya p displaystyle p nbsp Prote tak zhe chasto ce j ne ye zavdannyam yakogo namagayutsya dosyagti Natomist tak zhe chasto ce m displaystyle m nbsp ye deyakoyu nezminnoyu apriornoyu oriyentirnoyu miroyu a p displaystyle p img