Не слід плутати з дивергенцією в векторному численні В математичній статистиці розхо дження диверге нція або ві дстань К

Не слід плутати з дивергенцією в векторному численні.

В математичній статистиці розхо́дження, диверге́нція або ві́дстань Кульбака — Лейблера (що також називають відно́сною ентропі́єю, англ. Kullback–Leibler divergence, relative entropy) є мірою того, наскільки один розподіл імовірності відрізняється від іншого, еталонного розподілу ймовірності. До його застосувань належать відно́сна (шеннонова) ентропі́я в інформаційних системах, випадко́вість (англ. randomness) у неперервних часових рядах, та при́ріст інформа́ції (англ. information gain) при порівнюванні статистичних моделей висновування. На противагу до ^[en], воно є асиметричною міжрозподіловою мірою, і відтак не відповідає вимогам статистичної метрики розкиду. В простому випадку нульове розходження Кульбака — Лейблера показує, що два розглядані розподіли є ідентичними. Простішими словами, воно є мірою несподіваності, з різноманітними застосуваннями, такими як прикладна статистика, гідромеханіка, нейронаука та машинне навчання.

Етимологія

Розходження Кульбака — Лейблера було запропоновано 1951 року Соломоном Кульбаком та ^[en] як орієнто́ване розхо́дження (англ. directed divergence) між двома розподілами; Кульбак віддавав перевагу термінові інформа́ція розрі́знення (англ. discrimination information). Це розходження обговорено в книзі Кульбака 1959 року «Теорія інформації та статистика».

Означення

Для дискретних розподілів ймовірності $P$ та $Q$ , визначених на одному й тому ж імовірнісному просторі, розходженням Кульбака — Лейблера означено

$D_{\text{KL}}(P\parallel Q)=-\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {Q(x)}{P(x)}}\right)$

(1)

що є рівнозначним

D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right).

Іншими словами, воно є математичним сподіванням логарифмічної різниці між імовірностями $P$ та $Q$ , де математичне сподівання беруть із застосуванням ймовірностей $P$ . Розходження Кульбака — Лейблера можливо визначити лише якщо $Q(x)=0$ для будь-якого $x$ означає $P(x)=0$ (абсолютна неперервність). Коли $P(x)$ є нулем, внесок відповідного члену розцінюють як нульовий, оскільки

\lim _{x\to 0^{+}}x\log(x)=0.

Для розподілів $P$ та $Q$ неперервної випадкової змінної розходженням Кульбака — Лейблера означують інтеграл^{:с. 55}

$D_{\text{KL}}(P\parallel Q)=\int _{-\infty }^{\infty }p(x)\log \left({\frac {p(x)}{q(x)}}\right)\,dx$

(2)

де символами $p$ та $q$ позначено густини імовірності $P$ та $Q$ .

Загальніше, якщо $P$ та $Q$ є ймовірнісними мірами над множиною ${\mathcal {X}}$ , а $P$ є абсолютно неперервною щодо $Q$ , то розходженням Кульбака — Лейблера від $Q$ до $P$ означують

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}\log \left({\frac {dP}{dQ}}\right)\,dP,

де ${\frac {dP}{dQ}}$ є похідною Радона — Нікодима $P$ щодо $Q$ , і за умови існування правобічного виразу. Це може бути рівнозначно (згідно ланцюгового правила) записано як

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}\log \left({\frac {dP}{dQ}}\right){\frac {dP}{dQ}}\,dQ,

що є ентропією $P$ відносно $Q$ . У продовження цього випадку, якщо $\mu$ є будь-якою мірою на ${\mathcal {X}}$ , для якої існують $p={\frac {dP}{d\mu }}$ та $q={\frac {dQ}{d\mu }}$ (що означає, що $p$ та $q$ є абсолютно неперервними щодо $\mu$ ), то розходження Кульбака — Лейблера від $Q$ до $P$ задають як

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}p\log \left({\frac {p}{q}}\right)\,d\mu .

Логарифми в цих формулах беруть за ^[en] 2, якщо інформацію вимірюють в одиницях бітів, або за основою $e$ , якщо інформацію вимірюють в натах. Більшість формул, що залучають розходження Кульбака — Лейблера, виконуються не залежно від основи логарифму.

Існують різні угоди, як посилатися на $D_{\text{KL}}(P\parallel Q)$ словами. Часто на нього посилаються як на розходження між $P$ та $Q$ , проте, це не передає фундаментальної асиметричності в цьому відношенні. Іноді, як у цій статті, можна знайти його опис як розходження $P$ від, або щодо $Q$ . Це віддзеркалює асиметричність баєсового висновування, що починається від апріорного $Q$ , і уточнюється до апостеріорного $P$ .

Простий приклад

Кульбак наводить простий приклад (таблиця 2.1, приклад 2.1). Нехай $P$ та $Q$ є розподілами, показаними в таблиці й на малюнку. $P$ є розподілом з лівого боку малюнку, біноміальним розподілом з $N=2$ та $p=0.4$ . $Q$ є розподілом з правого боку малюнку, дискретним рівномірним розподілом з трьома можливими результатами, $x=0$ , $1$ чи $2$ (тобто, ${\mathcal {X}}=\{0,1,2\}$ ), кожен з імовірністю $p=1/3$ .

x	0	1	2
Розподіл P(x)	0.36	0.48	0.16
Розподіл Q(x)	0.333	0.333	0.333

КЛ-розходження $D_{\text{KL}}(P\parallel Q)$ та $D_{\text{KL}}(Q\parallel P)$ обчислюють із застосуванням означення (1) наступним чином. Цей приклад використовує натуральний логарифм з основою e, позначуваний $\operatorname {ln}$ , щоби отримати результати в натах (див. Одиниці вимірювання інформації).

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=-\sum _{x\in {\mathcal {X}}}P(x)\ln \left({\frac {P(x)}{Q(x)}}\right)\\&=-0.36\ln \left({\frac {0.36}{0.333}}\right)-0.48\ln \left({\frac {0.48}{0.333}}\right)-0.16\ln \left({\frac {0.16}{0.333}}\right)\\&=-0.0852996\end{aligned}}

{\begin{aligned}D_{\text{KL}}(Q\parallel P)&=-\sum _{x\in {\mathcal {X}}}Q(x)\ln \left({\frac {Q(x)}{P(x)}}\right)\\&=-0.333\ln \left({\frac {0.333}{0.36}}\right)-0.333\ln \left({\frac {0.333}{0.48}}\right)-0.333\ln \left({\frac {0.333}{0.16}}\right)\\&=-0.097455\end{aligned}}

Інтерпретації

Розходження Кульбака — Лейблера від $Q$ до $P$ часто позначують через $D_{\text{KL}}(P\parallel Q)$ .

В контексті машинного навчання $D_{\text{KL}}(P\parallel Q)$ часто називають ^[en], отримуваним при застосовуванні $Q$ замість $P$ . За аналогією з теорією інформації, його також називають відно́сною ентропі́єю (англ. relative entropy) $P$ щодо $Q$ . В контексті теорії кодування $D_{\text{KL}}(P\parallel Q)$ можливо тлумачити як вимірювання математичного сподівання числа додаткових бітів, необхідних для кодування зразків з $P$ із застосуванням коду, оптимізованого для $Q$ , замість коду, оптимізованого для $P$ .

Виражене мовою баєсового висновування, $D_{\text{KL}}(P\parallel Q)$ є мірою приросту інформації при перегляді переконань від апріорного розподілу ймовірності $Q$ до апостеріорного розподілу ймовірності $P$ . Іншими словами, це величина інформації, що втрачається при застосуванні $Q$ для наближення $P$ . У застосуваннях $P$ зазвичай представляє «істинний» розподіл даних, спостережень, або точно обчислений теоретичний розподіл, тоді як $Q$ зазвичай представляє теорію, модель, опис, або наближення $P$ . Щоби знаходити розподіл $Q$ , який є найближчим до $P$ , ми можемо мінімізувати КЛ-розходження, обчислюючи ^[en].

Розходження Кульбака — Лейблера є окремим випадком ширшого класу ^[en], що називають ^[en], а також класу ^[en]. Воно є єдиним таким розходженням над імовірностями, що належить до обох класів. І хоч його й часто інтуїтивно сприймають як спосіб вимірювання відстані між розподілами ймовірності, розходження Кульбака — Лейблера не є справжньою метрикою. З ним не дотримується нерівність трикутника, і в загальному випадку $D_{\text{KL}}(P\parallel Q)$ не дорівнює $D_{\text{KL}}(Q\parallel P)$ . Проте, його ^[en] вигляд, а саме його гессіан, дає метричний тензор, відомий як ^[en].

Характеризування

Артур Гобсон довів, що розходження Кульбака — Лейблера є єдиною мірою відмінності між розподілами ймовірності, яка задовольняє деякі бажані властивості, що є канонічним розширенням присутніх у широко вживаному (характеризуванні ентропії). Отже, взаємна інформація є єдиною мірою взаємної залежності, яка дотримується певних пов'язаних умов, оскільки її може бути визначено (в термінах розходження Кульбака — Лейблера).

Існує також баєсове характеризування розходження Кульбака — Лейблера.

Обґрунтування

Ілюстрація розходження Кульбака — Лейблера (КЛ) для двох нормальних розподілів. Чітко видно типову асиметричність розходження Кульбака — Лейблера.

В теорії інформації теорема Крафта — Макміллана встановлює, що будь-яку безпосередньо розкодовувану схему кодування для кодування повідомлення для виявляння одного значення $x_{i}$ з ряду можливостей $X$ можливо розглядати як представлення неявного розподілу ймовірності $q(x_{i})=2^{-l_{i}}$ над $X$ , де $l_{i}$ є довжиною коду для $x_{i}$ в бітах. Отже, розходження Кульбака — Лейблера можливо інтерпретувати як математичне сподівання додаткової довжини повідомлення над рівнем, яка мусить передаватися, якщо застосовується код, що є оптимальним для заданого (неправильного) розподілу $Q$ , в порівнянні з застосуванням коду, що ґрунтується на істинному розподілі $P$ .

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=-\sum _{x\in {\mathcal {X}}}p(x)\log q(x)+\sum _{x\in {\mathcal {X}}}p(x)\log p(x)\\&=\mathrm {H} (P,Q)-\mathrm {H} (P)\end{aligned}}

де $\mathrm {H} (P,Q)$ є перехресною ентропією $P$ та $Q$ , а $\mathrm {H} (P)$ є ентропією $P$ .

Зауважте також, що існує зв'язок між розходженням Кульбака — Лейблера та ^[en] в ^[en].

Властивості

Розходження Кульбака — Лейблера є завжди невід'ємним,

D_{\text{KL}}(P\parallel Q)\geq 0,

результат, відомий як ^[en], з нульовим

D_{\text{KL}}(P\parallel Q)

якщо і лише якщо

P=Q

майже скрізь. Ентропія

\mathrm {H} (P)

відтак встановлює мінімальне значення для перехресної ентропії

\mathrm {H} (P,Q)

, математичного сподівання числа бітів, необхідних при використанні коду на основі

Q

замість

P

, і, відтак, розходження Кульбака — Лейблера представляє математичне сподівання числа додаткових бітів, що мусять передаватися, щоби ідентифікувати значення

x

, вибране з

X

, якщо застосовується код, що відповідає розподілові ймовірності

Q

, а не «істинному» розподілові

P

.

Розходження Кульбака — Лейблера залишається однозначно означеним і для неперервних розподілів, а до того ж ще й інваріантним відносно перетворень параметрів. Наприклад, якщо здійснюють перетворення змінної $x$ на змінну $y(x)$ , то, оскільки $P(x)dx=P(y)dy$ та $Q(x)dx=Q(y)dy$ , розходження Кульбака — Лейблера може бути переписано:

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\int _{x_{a}}^{x_{b}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)\,dx\\[6pt]&=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)\,{\frac {dy}{dx}}}{Q(y)\,{\frac {dy}{dx}}}}\right)\,dy=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)}{Q(y)}}\right)\,dy\end{aligned}}

де

y_{a}=y(x_{a})

та

y_{b}=y(x_{b})

. І хоча й передбачалося, що перетворення було неперервним, але це не є обов'язковим. Це також показує, що розходження Кульбака — Лейблера дає розмірнісно стійку величину, оскільки якщо

x

є змінною з розмірністю, то

P(x)

та

Q(x)

також мають розмірності, бо, наприклад,

P(x)dx

розмірностей не має. Аргумент логарифмічного члену є й залишається безрозмірнісним, як він і мусить. Отже, це можливо розглядати як певним чином фундаментальнішу величину, ніж деякі інші властивості в теорії інформації (такі як власна інформація та шеннонова ентропія), що для не дискретних ймовірностей можуть ставати невизначеними або від'ємними.

Розходження Кульбака — Лейблера є ^[en] для незалежних розподілів практично так само, як і шеннонова ентропія. Якщо $P_{1},P_{2}$ є незалежними розподілами, зі спільним розподілом $P(x,y)=P_{1}(x)P_{2}(y)$ , і $Q,Q_{1},Q_{2}$ аналогічно, то

D_{\text{KL}}(P\parallel Q)=D_{\text{KL}}(P_{1}\parallel Q_{1})+D_{\text{KL}}(P_{2}\parallel Q_{2}).

Розходження Кульбака — Лейблера $D_{\text{KL}}(P\parallel Q)$ є опуклим в парі функцій маси ймовірності $(p,q)$ , тобто, якщо $(p_{1},q_{1})$ та $(p_{2},q_{2})$ є двома парами функцій маси ймовірності, то

D_{\text{KL}}(\lambda p_{1}+(1-\lambda )p_{2}\parallel \lambda q_{1}+(1-\lambda )q_{2})\leq \lambda D_{\text{KL}}(p_{1}\parallel q_{1})+(1-\lambda )D_{\text{KL}}(p_{2}\parallel q_{2}){\text{ for }}0\leq \lambda \leq 1.

Приклади

Багатовимірні нормальні розподіли

Припустімо, що ми маємо два багатовимірні нормальні розподіли з середніми $\mu _{0},\mu _{1}$ та з (невиродженими) коваріаційними матрицями $\Sigma _{0},\Sigma _{1}.$ Якщо ці два розподіли мають однакову розмірність, $k$ , то розходження Кульбака — Лейблера між ними є таким:^{:с. 13}

D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={\frac {1}{2}}\left(\operatorname {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+(\mu _{1}-\mu _{0})^{\mathsf {T}}\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\frac {\det \Sigma _{1}}{\det \Sigma _{0}}}\right)\right).

Логарифм в крайньому члені мусить братися за основою e, оскільки всі члени, крім крайнього, є логарифмами за основою e виразів, що є або коефіцієнтами функції густини, або інакше виникають натурально. Тож це рівняння дає результат, вимірюваний в натах. Ділення всього наведеного вище виразу на $ln(2)$ дає розходження в бітах.

Особливим випадком, що є широко вживаною величиною у ^[en], є КЛ-розходження між діагональним багатовимірним нормальним, та стандартним нормальним розподілами:

D_{\text{KL}}\left({\mathcal {N}}\left((\mu _{1},\ldots ,\mu _{k})^{\mathsf {T}},\operatorname {diag} (\sigma _{1}^{2},\ldots ,\sigma _{k}^{2})\right)\parallel {\mathcal {N}}\left(\mathbf {0} ,\mathbf {I} \right)\right)={1 \over 2}\sum _{i=1}^{k}(\sigma _{i}^{2}+\mu _{i}^{2}-\ln(\sigma _{i}^{2})-1).

Відношення до метрик

Можна було би спокуситися назвати розходження Кульбака — Лейблера «метрикою відстані» на просторі розподілів імовірності, але це не буде правильним, оскільки воно не є симетричним, тобто, $D_{\text{KL}}(P\parallel Q)\neq D_{\text{KL}}(Q\parallel P)$ , як і не задовольняє воно нерівність трикутника. Незважаючи на це, будучи ^[en], воно породжує топологію на просторі розподілів імовірності. Конкретніше, якщо $\{P_{1},P_{2},\ldots \}$ є послідовністю розподілів, такою, що

\lim _{n\to \infty }D_{\text{KL}}(P_{n}\parallel Q)=0

то кажуть, що

P_{n}\xrightarrow {D} Q.

З ^[en] випливає, що

P_{n}{\xrightarrow {D}}P\Rightarrow P_{n}{\xrightarrow {TV}}P,

де крайнє відповідає звичайній збіжності в повній варіації.

Далі Реньї (1970, 1961)

Інформаційна метрика Фішера

Розходження Кульбака — Лейблера є безпосередньо пов'язаним з ^[en]. Це можна зробити явним наступним чином. Припустімо, що обидва розподіли ймовірності $P$ та $Q$ параметризовано деяким (можливо, багатовимірним) параметром $\theta$ . Розгляньмо тоді два близькі значення $P=P(\theta )$ та $Q=P(\theta _{0})$ , такі, що параметр $\theta$ відрізняється лише на невелику величину від значення параметру $\theta _{0}$ . Конкретно, до першого порядку матимемо (із застосуванням ейнштейнового запису підсумовування)

P(\theta )=P(\theta _{0})+\Delta \theta ^{j}P_{j}(\theta _{0})+\cdots

де $\Delta \theta ^{j}=(\theta -\theta _{0})^{j}$ є невеличкою зміною $\theta$ в напрямку $j$ , а $P_{j}\left(\theta _{0}\right)={\frac {\partial P}{\partial \theta ^{j}}}(\theta _{0})$ є відповідним темпом зміни в розподілі ймовірності. Оскільки розходження Кульбака — Лейблера має нульовий абсолютний мінімум для $P=Q$ , тобто, $\theta =\theta _{0}$ , воно змінюється в маленьких параметрах $\Delta \theta ^{j}$ лише до другого порядку. Формальніше, як і для будь-якого мінімуму, перша похідна цього розходження зникає

\left.{\frac {\partial }{\partial \theta ^{j}}}\right|_{\theta =\theta _{0}}D_{KL}(P(\theta )\parallel P(\theta _{0}))=0,

і за розкладом Тейлора маємо до другого порядку

D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2}}\Delta \theta ^{j}\Delta \theta ^{k}g_{jk}(\theta _{0})+\cdots

де матриця Гессе розходження

g_{jk}(\theta _{0})=\left.{\frac {\partial ^{2}}{\partial \theta ^{j}\,\partial \theta ^{k}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))

мусить бути додатно напівозначеною. Якщо дозволити $\theta _{0}$ змінюватися (й опустити підіндекс 0), то гессіан $g_{jk}(\theta )$ визначатиме (можливо, вироджену) ріманову метрику на просторі параметру $θ$ , що називають інформаційною метрикою Фішера.

Теорема інформаційної метрики Фішера

Коли $p_{(x,\rho )}$ задовольняє наступні нормативні умови:

{\tfrac {\partial \log(p)}{\partial \rho }},{\tfrac {\partial ^{2}\log(p)}{\partial \rho ^{2}}},{\tfrac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}

існують,

{\begin{aligned}\left|{\frac {\partial p}{\partial \rho }}\right|&<F(x):\int _{x=0}^{\infty }F(x)\,dx<\infty ,\\\left|{\frac {\partial ^{2}p}{\partial \rho ^{2}}}\right|&<G(x):\int _{x=0}^{\infty }G(x)\,dx<\infty \\\left|{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}\right|&<H(x):\int _{x=0}^{\infty }p(x,0)H(x)\,dx<\xi <\infty \end{aligned}}

де $ξ$ є незалежною від $ρ$

\left.\int _{x=0}^{\infty }{\frac {\partial p(x,\rho )}{\partial \rho }}\right|_{\rho =0}\,dx=\left.\int _{x=0}^{\infty }{\frac {\partial ^{2}p(x,\rho )}{\partial \rho ^{2}}}\right|_{\rho =0}\,dx=0

тоді

{\mathcal {D}}(p(x,0)\parallel p(x,\rho ))={\frac {c\rho ^{2}}{2}}+{\mathcal {O}}(\rho ^{3}){\text{ as }}\rho \to 0.

Відношення до інших величин теорії інформації

Багато інших величин теорії інформації можливо інтерпретувати як застосування розходження Кульбака — Лейблера до особливих випадків.

Власна інформація

Докладніше: Власна інформація

Власну інформацію, відому також як інформаційний вміст сигналу, випадкової змінної або події, означено як від'ємний логарифм імовірності трапляння заданого результату.

При застосуванні до дискретної випадкової змінної власну інформацію може бути представлено як^[]

\operatorname {\operatorname {I} } (m)=D_{\text{KL}}(\delta _{im}\parallel \{p_{i}\}),

є розходженням Кульбака — Лейблера розподілу ймовірності $P(i)$ від дельти Кронекера, що представляє впевненість, що $i=m$ — тобто, число додаткових біт, що мусить бути передано, щоби ідентифікувати $i$ , якби отримувачеві був доступним розподіл імовірності $P(i)$ , а не той факт, що $i=m$ .

Взаємна інформація

Взаємна інформація^[]

{\begin{aligned}\operatorname {I} (X;Y)&=D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))\\&=\operatorname {E} _{X}\{D_{\text{KL}}(P(Y\mid X)\parallel P(Y))\}\\&=\operatorname {E} _{Y}\{D_{\text{KL}}(P(X\mid Y)\parallel P(X))\}\end{aligned}}

є розходженням Кульбака — Лейблера добутку $P(X)P(Y)$ двох розподілів відособлених ймовірностей від спільного розподілу ймовірності $P(X,Y)$ — тобто, математичним сподіванням числа бітів, яке мусить бути передано, щоби ідентифікувати $X$ та $Y$ , якщо їх кодовано із застосуванням лише їхніх відособлених розподілів замість спільного розподілу. Рівнозначно, якщо спільна ймовірність $P(X,Y)$ є відомою, то це є математичним сподіванням числа додаткових бітів, які мусить бути в середньому надіслано, щоби ідентифікувати $Y$ , якщо значення $X$ ще не є відомим отримувачеві.

Шеннонова ентропія

Шеннонова ентропія^[]

{\begin{aligned}\mathrm {H} (X)&=\operatorname {E} [\operatorname {I} _{X}(x)]\\&=\log(N)-D_{\text{KL}}(p_{X}(x)\parallel P_{U}(X))\end{aligned}}

є числом бітів, які мало би бути передано, щоби ідентифікувати $X$ з $N$ однаково ймовірних можливостей, меншим розходженням Кульбака — Лейблера рівномірного розподілу ^[en] $X$ , $P_{U}(X)$ , від істинного розподілу $P(X)$ — тобто, меншим за математичне сподівання числа заощаджених бітів, які мало би бути передано, якби значення $X$ було закодовано відповідно до рівномірного розподілу $P_{U}(X)$ замість істинного розподілу $P(X)$ .

Умовна ентропія

Умовна ентропія^[]

{\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P_{U}(X)P(Y))\\&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))-D_{\text{KL}}(P(X)\parallel P_{U}(X))\\&=\mathrm {H} (X)-\operatorname {I} (X;Y)\\&=\log(N)-\operatorname {E} _{Y}{\bigl [}D_{\text{KL}}(P(X\mid Y)\parallel P_{U}(X)){\bigr ]}\end{aligned}}

є числом бітів, які мало би бути передано, щоби ідентифікувати $X$ з $N$ однаково ймовірних можливостей, меншим розходженням Кульбака — Лейблера добутку розподілів $P_{U}(X)P(Y)$ від істинного спільного розподілу $P(X,Y)$ — тобто, меншим за математичне сподівання числа заощаджених бітів, які мало би бути передано, якби значення $X$ було кодовано відповідно до рівномірного розподілу $P_{U}(X)$ замість умовного розподілу $P(X|Y)$ змінної $X$ за заданого значення $Y$ .

Перехресна ентропія

Перехресна ентропія між двома розподілами ймовірності вимірює усереднене числом бітів, необхідних, щоби ідентифікувати подію з набору можливостей, якщо застосовувана схема кодування ґрунтується на заданому розподілі ймовірності $q$ замість «істинного» розподілу $p$ . Відтак, перехресну ентропію двох розподілів $p$ та $q$ над одним і тим же ймовірнісним простором означено наступним чином:^[]

\mathrm {H} (p,q)=\operatorname {E} _{p}[-\log(q)]=\mathrm {H} (p)+D_{\text{KL}}(p\parallel q).

Баєсове уточнювання

У баєсовій статистиці розходження Кульбака — Лейблера можливо застосовувати як міру приросту інформації при переході від апріорного розподілу до апостеріорного розподілу: $p(x)\to p(x\mid I)$ . Якщо виявлено деякий новий факт $Y=y$ , його може бути використано, щоби уточнити апостеріорний розподіл для $X$ з $p(x\mid I)$ до нового апостеріорного розподілу $p(x\mid y,I)$ із застосуванням теореми Баєса:

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}

Цей розподіл має нову ^[en]:

\mathrm {H} {\big (}p(-\mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I),

яка може бути меншою або більшою за первинну ентропію $\mathrm {H} (p(-\mid I))$ . Проте, з точки зору нового розподілу ймовірності, можливо оцінити, що застосування первинного коду на основі $p(x\mid I)$ замість нового коду на основі $p(x\mid y,I)$ додало би таке очікуване число бітів

D_{\text{KL}}{\big (}p(-\mid y,I)\parallel p(-\mid I){\big )}=\sum _{x}p(x\mid y,I)\log \left({\frac {p(x\mid y,I)}{p(x\mid I)}}\right)

до довжини повідомлення. Воно відтак представляє величину корисної інформації, або приріст інформації, про $X$ , що за нашою оцінкою ми дізналися, виявивши $Y=y$ .

Якщо потім надходять подальші дані, $Y_{2}=y_{2}$ , то розподіл імовірності для $x$ може бути уточнено далі, щоби дати нове найкраще припущення $p(x\mid y_{1},y_{2},I)$ . Якщо повторно дослідити приріст інформації для застосування $p(x\mid y_{1},I)$ замість $p(x\mid I)$ , то виявиться, що він може бути як більшим, так і меншим за оцінений минулого разу:

\sum _{x}p(x\mid y_{1},y_{2},I)\log \left({\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}\right)

може бути ≤ або > за

\displaystyle \sum _{x}p(x\mid y_{1},I)\log \left({\frac {p(x\mid y_{1},I)}{p(x\mid I)}}\right)

і, таким чином, об'єднаний приріст інформації не підкоряється нерівності трикутника:

D_{\text{KL}}{\big (}p(-\mid y_{1},y_{2},I)\parallel p(-\mid I){\big )}

може бути <, = або > за

D_{\text{KL}}{\big (}p(-\mid y_{1},y_{2},I)\parallel p(-\mid y_{1},I){\big )}+D_{\text{KL}}{\big (}p(-\mid y_{1},I)\parallel p(-\mid I){\big )}

Все, що можливо сказати, це що в середньому при усереднюванні із застосуванням $p(y_{2}\mid y_{1},x,I)$ ці дві сторони будуть приблизно рівними.

Баєсове планування експериментів

Поширеною метою в ^[en] є максимізувати математичне сподівання розходження Кульбака — Лейблера між апріорним та апостеріорним. Коли апостеріорні наближено вважають нормальними розподілами, то план, що максимізує математичне сподівання розходження Кульбака — Лейблера, називають ^[en].

Розрізнювальна інформація

Розходження Кульбака — Лейблера ${\textstyle D_{\text{KL}}{\bigl (}p(x\mid H_{1})\parallel p(x\mid H_{0}){\bigr )}}$ можливо також розглядати як очікувану розрі́знювальну інформа́цію (англ. discrimination information) для $H_{1}$ над $H_{0}$ : середню інформацію на зразок для розрізнення на користь гіпотези $H_{1}$ проти гіпотези $H_{0}$ , коли гіпотеза $H_{1}$ є істинною. Іншою назвою цієї величини, даною їй ^[en], є очікувана для $H_{1}$ над $H_{0}$ , якої варто чекати від кожного зразка.

Очікувана вага свідчення для $H_{1}$ над $H_{0}$ не є тим же, що й приріст інформації про розподіл імовірності $p(H)$ цих гіпотез, очікуваний на зразок,

D_{\text{KL}}(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\text{KL}}(p(H\mid x)\parallel p(H\mid I)).

Як функцію корисності в баєсовім плануванні експерименту, щоби обирати оптимальне наступне питання для дослідження, можливо використовувати будь-яку з цих двох величин, але вони загалом вестимуть до дещо різних стратегій експериментування.

На ентропійній шкалі приросту інформації різниця між майже впевненістю та абсолютною впевненістю є дуже маленькою — кодування відповідно до майже впевненості вимагає заледве більше бітів, ніж кодування відповідно до впевненості абсолютної. З іншого боку, на ^[en]-шкалі, що випливає з ваги свідчення, різниця між цими двома є величезною — можливо, нескінченною; це може віддзеркалювати різницю між тим, щоби бути майже впевненими (на ймовірнісному рівні), що, скажімо, гіпотеза Рімана є правильною, в порівнянні з тим, щоби бути впевненими в її правильності, оскільки вона має математичне доведення. Ці дві різні шкали функції втрат для невизначеності є корисними обидві, відповідно до того, наскільки добре кожна з них віддзеркалює певні обставини задачі, що розглядають.

Принцип мінімальної розрізнювальної інформації

Ідея розходження Кульбака — Лейблера як розрізнювальної інформації привела Кульбака до пропозиції принципу мініма́льної розрі́знювальної інформа́ції (МРІ, англ. Minimum Discrimination Information, MDI): за наявності нових фактів повинно бути обрано новий розподіл $f$ , що є якомога важче розрізнити від первинного розподілу $f_{0}$ ; так що нові дані продукують якомога менший приріст інформації $D_{\text{KL}}(f\parallel f_{0})$ .

Наприклад, якщо був апріорний розподіл $p(x,a)$ над $x$ та $a$ , і згодом дізналися, що істинним розподілом $a$ був $u(a)$ , то розходженням Кульбака — Лейблера між новим спільним розподілом для $x$ та $a$ , $q(x\mid a)u(a)$ , та ранішим апріорним розподілом, буде

D_{\text{KL}}(q(x\mid a)u(a)\parallel p(x,a))=\operatorname {E} _{u(a)}\left\{D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))\right\}+D_{\text{KL}}(u(a)\parallel p(a)),

тобто, сума розходження Кульбака — Лейблера $p(a)$ , апріорного розподілу $a$ , від уточненого розподілу $u(a)$ , та математичного сподівання (із застосуванням розподілу ймовірності $u(a)$ ) розходження Кульбака — Лейблера апріорного умовного розподілу $p(x\mid a)$ від нового умовного розподілу $q(x\mid a)$ . (Зауважте, що крайнє математичне сподівання часто називають умовним розходженням Кульбака — Лейблера, англ. conditional Kullback–Leibler divergence, (або умовною відносною ентропією, англ. conditional relative entropy), і позначують $D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))$ ^{:с. 22}) Вона мінімізується, якщо $q(x\mid a)=p(x\mid a)$ над усім носієм $u(a)$ ; і зауважмо, що цей результат включає теорему Баєса, якщо новий розподіл $u(a)$ є фактично δ-функцією, що представляє впевненість у тім, що $a$ має одне певне значення.

МРІ можливо розглядати як розширення ^[en] Лапласа, та ^[en] ^[en]. Зокрема, вона є природним розширенням принципу максимальної ентропії з дискретних на неперервні розподіли, для яких шеннонова ентропія перестає бути настільки корисною (див. диференціальну ентропію), але розходження Кульбака — Лейблера залишається настільки ж відповідним.

В інженерній літературі МРІ іноді називають принципом мінімальної перехресної ентропії (МПЕ, англ. Principle of Minimum Cross-Entropy, MCE), або, для скорочення, англ. Minxent. Мінімізування розходження Кульбака — Лейблера від $m$ до $p$ по відношенню до $m$ є рівнозначним мінімізуванню перехресної ентропії $p$ та $m$ , оскільки

\mathrm {H} (p,m)=\mathrm {H} (p)+D_{\text{KL}}(p\parallel m),

що є доречним, якщо намагатися обрати адекватне наближення $p$ . Проте так же часто це й не є завданням, якого намагаються досягти. Натомість, так же часто це $m$ є деякою незмінною апріорною орієнтирною мірою, а $p$