У статистиці фу нкція правдоподі бності англ likelihood function часто звана просто правдоподі бністю англ likelihood ви

У статистиці фу́нкція правдоподі́бності (англ. likelihood function, часто звана просто правдоподі́бністю, англ. likelihood) вимірює допасованість статистичної моделі до вибірки даних для заданих значень невідомих параметрів. Її утворюють зі спільного розподілу ймовірності цієї вибірки, але розглядають та використовують як функцію лише від цих параметрів, відтак розглядаючи випадкові змінні як зафіксовані в спостережуваних значеннях.

Функція правдоподібності описує гіперповерхню, чий пік, якщо він існує, представляє поєднання значень параметрів моделі, які максимізують імовірність витягування отриманої вибірки. Процедура отримання цих аргументів максимізації функції правдоподібності є відомою як оцінювання максимальною правдоподібністю, яке, заради обчислювальної зручності, зазвичай застосовують з використанням натурального логарифма правдоподібності, відомого як фу́нкція логарифмі́чної правдоподі́бності (англ. log-likelihood function). Крім того, форма та кривина поверхні правдоподібності несуть інформацію про стійкість цих оцінок, через що як частину статистичного аналізу часто здійснюють побудову графіку функції правдоподібності.

Варіант використання правдоподібності першим зробив Рональд Фішер, який мав переконання, що він є самодостатньою системою для статистичного моделювання та висновування. Згодом ^[en] та ^[en] очолили наукову школу, яка виступила за принцип правдоподібності, постулюючи, що вся доречна інформація для висновування міститься у функції правдоподібності. Але навіть і в частотницькій та баєсовій статистиці функція правдоподібності відіграє́ фундаментальну роль.

Означення

Функцію правдоподібності зазвичай означують по-різному для дискретних та неперервних розподілів імовірності. Загальне означення також є можливим, як обговорено нижче.

Дискретний розподіл імовірності

Нехай $X$ буде дискретною випадковою змінною з функцією маси ймовірності $p$ , залежною від параметра $\theta$ . Тоді функція

{\mathcal {L}}(\theta \mid x)=p_{\theta }(x)=P_{\theta }(X=x),

що розглядають як функцію від $\theta$ , є функцією правдоподібності для заданого ^[en] $x$ випадкової змінної $X$ . Іноді ймовірність «значення $x$ випадкової змінної $X$ для значення параметра $\theta$ » записують як $P (X = x | θ)$ або $P (X = x; θ)$ . ${\mathcal {L}}(\theta \mid x)$ не слід плутати з $p(\theta \mid x)$ : правдоподібність дорівнює ймовірності спостерігання певного результату $x$ , коли справжнім значенням параметра є $\theta$ , і відтак дорівнює густині ймовірності над результатом $x$ , а не над параметром $\theta$ .

Приклад

Рис. 1. Функція правдоподібності ( $p_{\text{H}}^{2}$ ) для ймовірності падіння монети аверсом (англ. *heads, H*) догори (без попереднього знання про справедливість монети) за умови, що ми проспостерігали HH.

Рис. 2. Функція правдоподібності ( $p_{\text{H}}^{2}(1-p_{\text{H}})$ ) для ймовірності падіння монети аверсом (англ. *heads, H*) догори (без попереднього знання про справедливість монети) за умови, що ми проспостерігали *HHT*.

Розгляньмо просту статистичну модель підкидання монети: єдиний параметр $p_{\text{H}}$ , що виражає «справедливість» цієї монети. Цей параметр є ймовірністю того, що монета після підкидання впаде аверсом (англ. heads, H) догори. $p_{\text{H}}$ може набувати будь-якого значення в проміжку з 0.0 по 1.0. Для ідеально ^[en] $p_{\text{H}}=0.5$ .

Уявімо підкидання справедливої монети двічі, й спостерігання наступних даних: два аверси за два підкидання (HH). Якщо виходити з припущення, що кожне наступне підкидання монети є н. о. р., то ймовірністю спостерігання HH є

P({\text{HH}}\mid p_{\text{H}}=0.5)=0.5^{2}=0.25.

Отже, за заданих даних спостережень HH, правдоподібністю того, що параметр моделі $p_{\text{H}}$ дорівнює 0.5, є 0.25. Математично це записують як

{\mathcal {L}}(p_{\text{H}}=0.5\mid {\text{HH}})=0.25.

Це не те ж саме, що й сказати, що ймовірністю того, що $p_{\text{H}}=0.5$ , за заданого спостереження HH є 0.25. (Для цього ми можемо застосувати теорему Баєса, яка означає, що апостеріорна ймовірність є пропорційною до правдоподібності, помноженої на апріорну ймовірність.)

Припустімо, що ця монета не є справедливою, але натомість має $p_{\text{H}}=0.3$ . Тоді ймовірністю отримання двох аверсів є

P({\text{HH}}\mid p_{\text{H}}=0.3)=0.3^{2}=0.09.

Отже,

{\mathcal {L}}(p_{\text{H}}=0.3\mid {\text{HH}})=0.09.

Загальніше, для кожного значення $p_{\text{H}}$ ми можемо обчислити відповідну правдоподібність. Результати таких обчислень показано на Рис. 1.

На Рис. 1. інтегралом правдоподібності над проміжком [0, 1] є 1/3. Це висвітлює важливий аспект правдоподібностей: правдоподібності не мають інтегруватися (чи підсумовуватися) до 1, на відміну від імовірностей.

Неперервний розподіл імовірності

Нехай $X$ буде випадковою змінною, що слідує (абсолютно неперервному розподілові ймовірності) з функцією густини $f$ , залежною від параметра $\theta$ . Тоді функція

{\mathcal {L}}(\theta \mid x)=f_{\theta }(x)=p(X=x\mid \theta ),\,

що розглядають як функцію від $\theta$ , є функцією правдоподібності (параметра $\theta$ для заданого ^[en] $x$ змінної $X$ ). Іноді функцію густини для «значення $x$ змінної $X$ для значення параметра $\theta$ » записують як $f(x\mid \theta )$ . ${\mathcal {L}}(\theta \mid x)$ не слід плутати з $p(\theta \mid x)$ : правдоподібність дорівнює густині ймовірності на певному результаті $x$ , коли справжнім значенням параметра є $\theta$ , і відтак вона дорівнює густині ймовірності над результатом $x$ , а не над параметром $\theta$ .

Загальний випадок

В ^[en] функцію густини означують як похідну Радона — Нікодима розподілу ймовірності відносно спільної домінантної міри. Функція правдоподібності є цією густиною, інтерпретованою як функція від параметра (можливо, векторного), а не від можливих результатів. Це забезпечує функцію правдоподібності для будь-якої статистичної моделі з усіма розподілами, чи то дискретними, абсолютно неперервними, сумішшю, чи чимось ще. (Правдоподібності буде можливо порівнювати, наприклад, для оцінювання параметрів, лише якщо вони є похідними Радона — Нікодима по відношенню до однієї й тієї ж домінантної міри.)

Наведене вище обговорення правдоподібності з дискретними ймовірностями є окремим випадком цього із застосуванням лічильної міри, яка робить імовірність будь-якого одиничного результату рівною густині ймовірності для цього результату.

Якщо не задано жодної події (немає даних), то ймовірністю, і відтак правдоподібністю, є 1.^[] Будь-яка нетривіальна подія матиме нижчу правдоподібність.

Функція правдоподібності параметризованої моделі

Із багатьох застосувань ми розглянемо тут одне, що має широку теоретичну та практичну важливість. Для заданого ^[en] функцій густини ймовірності (або функцій маси ймовірності у випадку дискретних розподілів)

x\mapsto f(x\mid \theta ),\!

де $\theta$ є параметром, фу́нкцією правдоподі́бності (англ. likelihood function) є

\theta \mapsto f(x\mid \theta ),\!

що записують як

{\mathcal {L}}(\theta \mid x)=f(x\mid \theta ),\!

де $x$ є спостережуваним результатом експерименту. Іншими словами, коли $f(x|\theta )$ розглядають як функцію від $x$ за незмінного $\theta$ , вона є функцією густини ймовірності, а коли її розглядають як функцію від $\theta$ за незмінного $x$ , вона є функцією правдоподібності.

Це не є тим же, що й імовірність того, що ці параметри є правильними за заданої спостережуваної вибірки. Намагання інтерпретувати правдоподібність гіпотези за заданого спостережуваного свідчення як її імовірність є поширеною помилкою з потенційно катастрофічними наслідками. Як приклад цього див. помилку прокурора.

З геометричної точки зору, якщо ми розглядаємо $f(x|\theta )$ як функцію від двох змінних, то сімейство розподілів імовірності можливо розглядати як сімейство кривих, паралельних до осі $x$ , тоді як сімейство функцій правдоподібності є перпендикулярними кривими, паралельними до осі $\theta$ .

Правдоподібності для неперервних розподілів

Застосування густини ймовірності у визначенні функції правдоподібності вище може бути пояснено наступним чином. Для заданих спостережень $x_{j}$ правдоподібність для проміжку $[x_{j},x_{j}+h]$ , де $h>0$ є сталою, задають як ${\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])$ . Зверніть увагу, що

\operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\operatorname {argmax} _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])

,

оскільки $h$ є додатною та сталою. Оскільки

\operatorname {argmax} _{\theta }{\frac {1}{h}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\operatorname {argmax} _{\theta }{\frac {1}{h}}\Pr(x_{j}\leq x\leq x_{j}+h\mid \theta )=\operatorname {argmax} _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx,

де $f(x\mid \theta )$ є функцією густини ймовірності, з цього випливає, що

\operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])=\operatorname {argmax} _{\theta }{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx

.

Перша фундаментальна теорема інтегрального числення та правило Лопіталя разом забезпечують, що

{\begin{aligned}&\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx=\lim _{h\to 0^{+}}{\frac {{\frac {d}{dh}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx}{\frac {dh}{dh}}}\\[4pt]={}&\lim _{h\to 0^{+}}{\frac {f(x_{j}+h\mid \theta )}{1}}=f(x_{j}\mid \theta ).\end{aligned}}

Тоді

{\begin{aligned}&\operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\operatorname {argmax} _{\theta }\left[\lim _{h\to 0^{+}}{\mathcal {L}}(\theta \mid x\in [x_{j},x_{j}+h])\right]\\[4pt]={}&\operatorname {argmax} _{\theta }\left[\lim _{h\to 0^{+}}{\frac {1}{h}}\int _{x_{j}}^{x_{j}+h}f(x\mid \theta )\,dx\right]=\operatorname {argmax} _{\theta }f(x_{j}\mid \theta ).\end{aligned}}

Отже,

\operatorname {argmax} _{\theta }{\mathcal {L}}(\theta \mid x_{j})=\operatorname {argmax} _{\theta }f(x_{j}\mid \theta ),\!

і відтак максимізування густини ймовірності в $x_{j}$ є рівносильним максимізуванню правдоподібності конкретного спостереження $x_{j}$ .

Правдоподібності для змішаних неперервно-дискретних розподілів

Наведене вище може бути в простий спосіб розширено так, щоби дозволяти розгляд розподілів, що містять як дискретні, так і неперервні складові. Припустімо, що такий розподіл складається з якоїсь кількості дискретних мас імовірності $p_{k}\theta$ та з густини $f(x|\theta )$ , де сума всіх $p$ , додана до інтегралу $f$ , завжди є одиницею. За припущення, що можливо розрізняти спостереження, що відповідає одній з цих дискретних мас імовірності, від того, що відповідає складовій густини, функцію правдоподібності для спостереження з неперервної складової можливо розглядати наведеним вище чином. Для спостереження з дискретної складової функцією правдоподібності для спостереження з цієї дискретної складової є просто

{\mathcal {L}}(\theta \mid x)=p_{k}(\theta ),\!

де $k$ є індексом маси дискретної ймовірності, що відповідає спостереженню $x$ , оскільки максимізування маси ймовірності (або ймовірності) в $x$ є рівносильним максимізуванню правдоподібності цього конкретного спостереження.

Той факт, що функцію правдоподібності може бути визначено в спосіб, що включає не порівнянні внески (густина та маса ймовірності), випливає зі способу її визначення, в якому функцію правдоподібності визначено з точністю до сталої пропорційності, де ця «стала» може змінюватися зі спостереженням $x$ , але не з параметром $\theta$ .

Умови регулярності

В контексті оцінювання параметрів зазвичай виходять з того, що функція правдоподібності задовольняє певні умови, відомі як умови регулярності (англ. regularity conditions). З цих умов виходять у багатьох доведеннях, що включають функції правдоподібності, і їх потрібно перевіряти в кожному конкретному застосуванні. Для методу максимальної правдоподібності надзвичайно важливим є існування глобального максимуму функції правдоподібності. Згідно другої теореми Веєрштраса, неперервна функція правдоподібності на компактному просторі параметрів є достатньою для існування оцінювача максимальною правдоподібністю. В той час як припущення про неперервність зазвичай виконується, припущення про компактність простору параметрів часто не виконується, оскільки межі справжніх значень параметрів є невідомими. В такому випадку ключову роль відіграє угнутість функції правдоподібності.

Конкретніше, якщо функція правдоподібності є двічі неперервно диференційовною на k-вимірному просторі параметрів $\Theta$ , що вважають відкритою зв'язаною підмножиною $\mathbb {R} ^{k}$ , то унікальний максимум ${\hat {\theta }}\in \Theta$ існує, якщо

\mathbf {H} (\theta )=\left\{{\frac {\partial ^{2}L}{\partial \theta _{i}\partial \theta _{j}}}\right\}

є від'ємно визначеною для кожного

\theta \in \Theta

, для якого градієнт

\nabla L=\left\{\partial L/\partial \theta _{i}\right\}

зникає, та

\lim _{\theta \to \partial \Theta }L(\theta )=0

, тобто функція правдоподібності наближується до сталої на межі простору параметрів, яка може включати точки на нескінченності, якщо

\Theta

є необмеженим.

Макелайнен та ін. доводять цей результат, застосовуючи теорію Морса, неформально звертаючись до властивості гірського перевалу. Машкареньяш підтверджує їхнє доведення, застосовуючи ^[en].

В доведенні слушності та асимптотичної нормальності оцінювача максимальною правдоподібністю роблять додаткові припущення про густи́ни ймовірностей, які складають основу певної функції правдоподібності. Ці умови було вперше встановлено Чандою. Зокрема, для майже всіх $x$ , та для всіх $\theta \in \Theta$

{\frac {\partial \log f}{\partial \theta _{r}}}\,,\quad {\frac {\partial ^{2}\log f}{\partial \theta _{r}\partial \theta _{s}}}\,,\quad {\frac {\partial ^{3}\log f}{\partial \theta _{r}\partial \theta _{s}\partial \theta _{t}}}

існують для всіх $r,s,t=1,2,\ldots ,k$ , щоби забезпечити існування розкладу Тейлора. По-друге, для майже всіх $x$ та для кожного $\theta \in \Theta$ мусить бути

\left|{\frac {\partial f}{\partial \theta _{r}}}\right|<F_{r}(x)\,,\quad \left|{\frac {\partial ^{2}f}{\partial \theta _{r}\partial \theta _{s}}}\right|<F_{rs}(x)\,,\quad \left|{\frac {\partial ^{3}f}{\partial \theta _{r}\partial \theta _{s}\partial \theta _{t}}}\right|<H_{rst}(x)

де $H$ є такою, що $\int _{-\infty }^{\infty }H_{rst}(z)\mathrm {d} z\leq M<\infty$ . Ця обмеженість похідних є потрібною, щоби уможливити ^[en]. І, нарешті, передбачається, що ^[en]

\mathbf {I} (\theta )=\int _{-\infty }^{\infty }{\frac {\partial \log f}{\partial \theta _{r}}}{\frac {\partial \log f}{\partial \theta _{s}}}f\mathrm {d} z

є додатно визначеною, а $\left|\mathbf {I} (\theta )\right|$ є скінченною. Це забезпечує скінченність дисперсії внеску.

Наведені вище умови є достатніми, але не необхідними. Тобто, модель, що не задовольняє ці умови регулярності, може мати, а може й не мати оцінювача максимальною правдоподібністю згаданих вище властивостей. Крім того, у випадку не незалежно або не однаково розподілених спостережень може бути потрібно очікувати додаткових властивостей.

Відношення правдоподібностей та відносна правдоподібність

Відношення правдоподібностей

Відно́шення правдоподі́бностей (англ. likelihood ratio) — це відношення будь-яких двох вказаних правдоподібностей, що часто записують як

\Lambda (\theta _{1}:\theta _{2}\mid x)={\frac {{\mathcal {L}}(\theta _{1}\mid x)}{{\mathcal {L}}(\theta _{2}\mid x)}}

Відношення правдоподібностей є центральним для правдоподібницької статистики: закон правдоподібності встановлює, що ступінь, до якого дані (що розглядають як свідчення) підтримують один параметр проти іншого, вимірюється відношенням правдоподібностей.

В частотницькому висновуванні відношення правдоподібності є основою для статистичного критерію, так званої перевірки відношенням правдоподібностей. Згідно ^[en], вона є найпотужнішою перевіркою для порівнювання двох простих гіпотез на заданому рівні значущості. Численні інші критерії можливо розглядати як перевірки відношенням правдоподібностей, або його наближеннями. Асимптотичний розподіл логарифмічного відношення правдоподібностей, що розглядають як статистичний критерій, задано ^[en].

Відношення правдоподібностей також має центральне значення в баєсовім висновуванні, де воно є відомим як коефіцієнт Баєса, і застосовується в правилі Баєса. Викладене в термінах ^[en] (англ. odds), правило Баєса полягає в тім, що апостеріорні шанси двох альтернатив, $A_{1}$ та $A_{2}$ , за умови події $B$ , є апріорними шансами, помноженими на відношення правдоподібностей. У вигляді рівняння:

O(A_{1}:A_{2}\mid B)=O(A_{1}:A_{2})\cdot \Lambda (A_{1}:A_{2}\mid B).

Відношення правдоподібності не використовують в статистиці на основі ІКА напряму. Натомість використовують відносну правдоподібність моделей (див. нижче).

Відмінність від відношення шансів

Відношення правдоподібностей двох моделей, коли задано одну й ту ж подію, може бути протиставлено з ^[en] двох подій, коли задано одну й ту ж модель. В термінах параметризованої функції маси ймовірності $p_{\theta }(x)$ , відношенням правдоподібностей двох параметрів $\theta _{1}$ та $\theta _{2}$ за заданого результату $x$ є

\Lambda (\theta _{1}:\theta _{2}\mid x)=p_{\theta _{1}}(x):p_{\theta _{2}}(x),

тоді як шансами двох результатів, $x_{1}$ та $x_{2}$ , за заданого значення параметра $\theta$ , є

O(x_{1}:x_{2}\mid \theta )=p_{\theta }(x_{1}):p_{\theta }(x_{2}).

Це підкреслює різницю між правдоподібностями та шансами: в правдоподібностях порівнюють моделі (параметри), тримаючи дані незмінними, тоді як в шансах порівнюють події (результати, дані), тримаючи незмінною модель.

^[en] є відношенням двох умовних шансів (події, за заданої присутності або відсутності іншої події). Проте відношення шансів також можливо інтерпретувати як відношення двох відношень правдоподібностей, якщо розглядати одну з подій як спостережувану легше за іншу. Див. діагностичне відношення шансів, де результат перевірки для встановлення діагнозу спостерігати легше, ніж наявність або відсутність медичного стану, що лежить в його основі.

Функція відносної правдоподібності

Див. також: Відносна правдоподібність

Оскільки фактичне значення функції правдоподібності залежить від вибірки, часто зручно працювати зі стандартизованою мірою. Припустімо, що оцінкою максимальною правдоподібністю для параметра $θ$ є ${\hat {\theta }}$ . Відносні достовірності (англ. plausibilities) інших значень $θ$ може бути знайдено порівнюванням правдоподібностей цих інших значень з правдоподібністю ${\hat {\theta }}$ . Відно́сну правдоподі́бність (англ. relative likelihood) $θ$ означують як

R(\theta )={\frac {{\mathcal {L}}(\theta \mid x)}{{\mathcal {L}}({\hat {\theta }}\mid x)}}.

Таким чином, відносна правдоподібність є відношенням правдоподібностей (обговореним вище) з незмінним знаменником ${\mathcal {L}}({\hat {\theta }})$ . Це відповідає унормуванню цієї правдоподібності, щоби вона мала за максимум 1.

Область правдоподібності

О́бласть правдоподі́бності (англ. likelihood region) — це множина всіх значень $θ$ , чиї відносні правдоподібності є більшими або рівними заданому порогові. В термінах відсотків, $p$ %-ву область правдоподібності для $θ$ означують як

\left\{\theta :R(\theta )\geq {\frac {p}{100}}\right\}.

Якщо $θ$ є єдиним дійснозначним параметром, то $p$ %-ва область правдоподібності зазвичай становить проміжок дійсних значень. Якщо ця область дійсно становить проміжок, то її називають про́міжком правдоподі́бності (англ. likelihood interval).

Проміжки правдоподібності, та, загальніше, області правдоподібності використовують для ^[en] в правдоподібницькій статистиці: вони є подібними до довірчих проміжків у частотницькій статистиці та ймовірних проміжків у баєсовій статистиці. Проміжки правдоподібності тлумачать безпосередньо в термінах відносної правдоподібності, а не в термінах ^[en] (частотництво) чи апостеріорної ймовірності (баєсівство).

Для заданої моделі проміжки правдоподібності можливо порівнювати з довірчими проміжками. Якщо $θ$ є єдиним дійснозначним параметром, то, за певних умов 14.65%-й проміжок правдоподібності (правдоподібність близько 1:7) для $θ$ буде таким же, як і 95%-й довірчий проміжок (ймовірність накриття 19/20). У дещо відмінному формулюванні, пристосованому для використання логарифмічних правдоподібностей (див. (теорему Уілкса)), перевірна статистика є подвоєною різницею логарифмічних правдоподібностей, а розподіл імовірності цієї перевірної статистики приблизно є розподілом хі-квадрат зі ступенями вільності, що дорівнюють різниці в ступенях вільності між цими двома моделями (тому проміжок правдоподібності $e$ ⁻² є таким же, як і довірчий проміжок 0.954, за припущення, що різницею в ступенях вільності є 1).

Правдоподібності, що усувають завадні параметри

В багатьох випадках правдоподібність є функцією більш ніж одного параметра, але інтерес зосереджується на оцінюванні лише одного, або щонайбільше декількох з них, з розглядом інших як ^[en]. Було розроблено декілька альтернативних підходів для усування таких завадних параметрів таким чином, щоби функцію правдоподібності могло бути записано як функцію лише параметра (або параметрів), що становлять інтерес: головними підходами є профільна (англ. profile), умовна (англ. conditional) та відособлена (англ. marginal) правдоподібності. Ці підходи є також корисними, коли потрібно звужувати поверхні правдоподібності високої вимірності до одного чи двох параметрів, що становлять інтерес, щоби уможливити побудову графіку.

Профільна правдоподібність

Можливо знижувати розмірності, зосереджуючи функцію правдоподібності на підмножині параметрів шляхом виражання завадних параметрів як функцій від параметрів, що становлять інтерес, і заміни їх у функції правдоподібності. Загалом, для функції правдоподібності, що залежить від вектору параметрів $\mathbf {\theta }$ , який можливо розбити на $\mathbf {\theta } =\left(\mathbf {\theta } _{1}:\mathbf {\theta } _{2}\right)$ , і де відповідність $\mathbf {\hat {\theta }} _{2}=\mathbf {\hat {\theta }} _{2}\left(\mathbf {\theta } _{1}\right)$ можливо визначити явно, зосереджування знижує обчислювальне навантаження первинної задачі максимізації.

Наприклад, в лінійній регресії з нормально розподіленими похибками, $\mathbf {y} =\mathbf {X} \beta +u$ , вектор коефіцієнтів може бути розбито на $\beta =\left[\beta _{1}:\beta _{2}\right]$ (а ^[en], відповідно, на $\mathbf {X} =\left[\mathbf {X} _{1}:\mathbf {X} _{2}\right]$ ). Максимізування відносно $\beta _{2}$ видає функцію оптимального значення $\beta _{2}(\beta _{1})=\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}\left(\mathbf {y} -\mathbf {X} _{1}\beta _{1}\right)$ . Із застосуванням цього результату оцінювач максимальною правдоподібністю для $\beta _{1}$ може бути виведено як

{\hat {\beta }}_{1}=\left(\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {X} _{1}\right)^{-1}\mathbf {X} _{1}^{\mathsf {T}}\left(\mathbf {I} -\mathbf {P} _{2}\right)\mathbf {y}

де $\mathbf {P} _{2}=\mathbf {X} _{2}\left(\mathbf {X} _{2}^{\mathsf {T}}\mathbf {X} _{2}\right)^{-1}\mathbf {X} _{2}^{\mathsf {T}}$ є ^[en] $\mathbf {X} _{2}$ . Цей результат є відомим як ^[en].

Оскільки графічно процедура зосереджування є рівнозначною нарізанню поверхні правдоподібності по хребту значень завадного параметра $\beta _{2}$ , яке максимізує функцію правдоподібності, створюючи ізометричний ^[en] функції правдоподібності для заданого $\beta _{1}$ , результат цієї процедури є також відомим як про́фільна правдоподі́бність (англ. profile likelihood). На додачу до графічного зображування, профільну правдоподібність також можливо використовувати для обчислювання довірчих проміжків, які часто мають кращі властивості на малих вибірках, ніж основані на асимптотичних стандартних похибках, обчислюваних із повної правдоподібності.

Умовна правдоподібність

Іноді для завадних параметрів можливо знайти достатню статистику, і обумовлювання цією статистикою дає в результаті правдоподібність, що не залежить від завадних параметрів.

Один із прикладів трапляється в таблицях 2×2, де обумовлювання усіма чотирма відособленими підсумками веде до умовної правдоподібності на основі нецентрального гіпергеометричного розподілу. Цей вид обумовлювання є також основою ^[en].

Відособлена правдоподібність

Докладніше: Відособлена правдоподібність

Іноді ми можемо усувати завадні параметри, розглядаючи правдоподібність на основі лише частини інформації з даних, наприклад, застосуванням набору порядків замість числових значень. Інший приклад трапляється в лінійних змішаних моделях, де розгляд правдоподібності лише для залишків після допасовування фіксованих впливів веде до оцінювання ^[en] складових відхилення.

Часткова правдоподібність

Часткова правдоподібність (англ. partial likelihood) — це таке пристосування повної правдоподібності, що в ньому є лише частина параметрів (параметри, що становлять інтерес). Вона є ключовою складовою ^[en]: з використанням обмеження на функцію ризиків, правдоподібність не містить фігури ризику в часі.

Добуток правдоподібностей

Правдоподібність за заданих двох або більше незалежних подіях є добутком правдоподібностей кожної з цих окремих подій:

\Lambda (A\mid X_{1}\land X_{2})=\Lambda (A\mid X_{1})\cdot \Lambda (A\mid X_{2})

Це випливає з означення незалежності в теорії ймовірностей: імовірністю трапляння двох незалежних подій за заданої моделі є добуток цих імовірностей.

Це є особливо важливим, коли події походять від незалежних однаково розподілених випадкових змінних, таких як незалежні спостереження або ^[en]. В такій ситуації функція правдоподібності розкладається на добуток окремих функцій правдоподібностей.

Порожній добуток має значення 1, яке відповідає правдоподібності за відсутності події, що становить 1: перед будь-якими даними правдоподібністю завжди є 1. Це є подібним до рівномірного апріорного в баєсовій статистиці, але в правдоподібницькій статистиці це не є некоректним апріорним, оскільки правдоподібності не інтегруються.

Логарифмічна правдоподібність

Детальніші відомості з цієї теми ви можете знайти в статті Логарифмічна ймовірність.

Фу́нкція логарифмі́чної правдоподі́бності (англ. log-likelihood function) — це логарифмічне перетворення функції правдоподібності, яке часто позначують маленькою $l$ або $\ell$ , на противагу до великої $L$ або ${\mathcal {L}}$ для самої правдоподібності. Оскільки угнутість відіграє́ в максимізації ключову роль, а більшість поширених розподілів імовірності, зокрема, ^[en], є лише логарифмічно угнутими, зазвичай набагато зручніше працювати з функціями логарифмічних правдоподібностей. Також, логарифмічна правдоподібність є особливо зручною в оцінюванні максимальною правдоподібністю. Оскільки логарифми є строго висхідними функціями, максимізування правдоподібності є рівнозначним максимізуванню логарифмічної правдоподібності.

За умови незалежності кожної з подій, загальна логарифмічна правдоподібність перетину дорівнює сумі логарифмічних правдоподібностей окремих подій. Це є аналогічним тому фактові, що загальна логарифмічна ймовірність є сумою логарифмічних імовірностей цих окремих подій. На додачу до математичної зручності, яку це дає, процес додавання логарифмічних правдоподібностей має інтуїтивну інтерпретацію, яку часто виражають як «підтримку» даними. Коли параметри оцінюють, застосовуючи логарифмічну правдоподібність для оцінювання максимальною правдоподібністю, кожну точку даних використовують додаванням до підсумкової логарифмічної правдоподібності. Оскільки ці дані можливо розглядати як свідчення, що підтримують оцінювані параметри, цей процес можливо інтерпретувати як «підтримка від незалежних свідчень додається», а логарифмічна правдоподібність є «вагою свідчення». Якщо інтерпретувати від'ємну логарифмічну правдоподібність як власну інформацію, або несподіваність, то підтримка (логарифмічна правдоподібність) моделі, за заданої події, є від'ємною несподіваністю цієї події за заданої моделі: модель підтримувано подією в тій мірі, в якій ця подія не є несподіваною за заданої моделі.

Вибір основи $b$ для логарифма відповідає виборові масштабу. Зазвичай використовують натуральний логарифм, й основу залишають незмінною, але іноді основу роблять змінною, в разі чого записуючи основу як $b=e^{\beta }$ , коефіцієнт $β$ можливо інтерпретувати як ^[en].

Логарифм відношення правдоподібностей дорівнює різниці логарифмічних правдоподібностей:

\log {\frac {L(A)}{L(B)}}=\log L(A)-\log L(B)=\ell (A)-\ell (B).

Точно як і правдоподібність, що за відсутності події є 1, логарифмічною правдоподібністю за відсутності події є 0, що відповідає значенню нульової суми: без бодай якихось даних не існує підтримки для жодної моделі.

Рівняння правдоподібності

Якщо функція логарифмічної правдоподібності є гладкою, то її градієнт відносно параметра, відомий як внесок і записуваний як $s_{n}(\theta )\equiv \nabla _{\theta }\ell _{n}(\theta )$ , існує й дозволяє застосовувати диференціальне числення. Базовим способом максимізувати диференційовну функцію є знаходити стаціонарні точки (такі, де її похідна є нульовою). Оскільки похідна суми є просто сумою похідних, а похідна добутку вимагає правила добутку, простіше обчислювати стаціонарні точки логарифмічної правдоподібності окремих подій, ніж правдоподібності окремих подій.

Рівняння, що визначає стаціонарна точка функції внеску, слугують ^[en] для оцінювача максимальною правдоподібністю.

s_{n}(\theta )=\mathbf {0}

В цьому сенсі оцінювач максимальною правдоподібністю неявно визначається значенням в $\mathbf {0}$ оберненої функції $s_{n}^{-1}:\mathbb {E} ^{d}\to \Theta$ , де $\mathbb {E} ^{d}$ є d-вимірним евклідовим простором. Шляхом застосування теореми про обернену функцію можливо показати, що $s_{n}^{-1}$ є ^[en] у ^[en] навколо $\mathbf {0}$ з імовірністю, що прямує до одиниці, а ${\hat {\theta }}_{n}=s_{n}^{-1}(\mathbf {0} )$ є слушною оцінкою $\theta$ . Як наслідок, існує така послідовність $\left\{{\hat {\theta }}_{n}\right\}$ , що $s_{n}({\hat {\theta }}_{n})=\mathbf {0}$ асимптотично майже напевно, і ${\hat {\theta }}_{n}{\xrightarrow {\text{p}}}\theta _{0}$ . Аналогічний результат можливо встановити, застосувавши теорему Ролля.

Друга похідна, обчислювана в ${\hat {\theta }}$ , відома як інформація за Фішером, визначає кривину поверхні правдоподібності, і відтак показуючи ^[en] оцінки.

Експоненційні сімейства

Детальніші відомості з цієї теми ви можете знайти в статті ^[en].

Логарифмічна правдоподібність є також надзвичайно корисною для ^[en] розподілів, до яких можуть входити багато поширених ^[en]. Функція розподілу ймовірності (й відтак функція правдоподібності) для експоненційних сімейств містить добутки множників, що містять піднесення до степеня. Логарифм такої функції є сумою добутків, знов-таки простішою для диференціювання за первинну функцію.

Експоненційне сімейство — це таке, чия функція густини ймовірності має вигляд (для деяких функцій, із позначенням через $\langle -,-\rangle$ внутрішнього добутку):

p(x\mid {\boldsymbol {\theta }})=h(x)\exp {\Big (}\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }}){\Big )}.

Кожен із цих членів має інтерпретацію, але простий перехід від імовірності до правдоподібності та взяття логарифмів дає суму

\ell ({\boldsymbol {\theta }}\mid x)=\langle {\boldsymbol {\eta }}({\boldsymbol {\theta }}),\mathbf {T} (x)\rangle -A({\boldsymbol {\theta }})+\log h(x).

${\boldsymbol {\eta }}({\boldsymbol {\theta }})$ та $h(x)$ відповідають зміні координат, тож у цих координатах логарифмічна правдоподібність експоненційного сімейства задається простою формулою

\ell ({\boldsymbol {\eta }}\mid x)=\langle {\boldsymbol {\eta }},\mathbf {T} (x)\rangle -A({\boldsymbol {\eta }}).

Словами, логарифмічна правдоподібність експоненційного сімейства є внутрішнім добутком природного параметра ${\boldsymbol {\eta }}$ та достатньої статистики $\mathbf {T} (x)$ , мінус коефіцієнт унормування (^[en]) $A({\boldsymbol {\eta }})$ . Таким чином, наприклад, оцінку максимальною правдоподібністю може бути обчислено взяттям похідних достатньої статистики $T$ та логарифмічної статистичної суми $A$ .

Приклад: гамма-розподіл

Гамма-розподіл — це експоненційне сімейство з двома параметрами, $\alpha$ та $\beta$ . Його функцією правдоподібності є

{\mathcal {L}}(\alpha ,\beta \mid x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}e^{-\beta x}.

Знаходження оцінки максимальної правдоподібності $\beta$ для єдиного спостережуваного значення $x$ виглядає дещо складним. З його логарифмом працювати набагато простіше:

\log {\mathcal {L}}(\alpha ,\beta \mid x)=\alpha \log \beta -\log \Gamma (\alpha )+(\alpha -1)\log x-\beta x.\,

Щоби максимізувати логарифмічну правдоподібність, ми спершу беремо часткову похідну за $\beta$ :

{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x)}{\partial \beta }}={\frac {\alpha }{\beta }}-x.

Якщо є ряд незалежних спостережень $x_{1},\ldots ,x_{n}$ , то спільною логарифмічною правдоподібністю буде сума окремих логарифмічних правдоподібностей, а похідною цієї суми буде сума похідних всіх окремих логарифмічних правдоподібностей:

{\begin{aligned}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1},\ldots ,x_{n})}{\partial \beta }}\\={}&{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{1})}{\partial \beta }}+\cdots +{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta \mid x_{n})}{\partial \beta }}={\frac {n\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}.\end{aligned}}

Щоби завершити процедуру максимізування для спільної логарифмічної правдоподібності, це рівняння встановлюють в нуль, і розв'язують для $\beta$ :

{\widehat {\beta }}={\frac {\alpha }{\bar {x}}}.

Тут ${\widehat {\beta }}$ позначує оцінку максимальною правдоподібністю, а $\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ є вибірковим середнім спостережень.

Походження та інтерпретація

Історичні зауваження

Детальніші відомості з цієї теми ви можете знайти в статті ^[en] та Історія теорії ймовірності.

Термін англ. likelihood (правдоподібність) був у вжитку в англійській щонайменше з середньоанглійської. Його формальне застосування для позначення конкретної функції в математичній статистиці було запропоновано Рональдом Фішером у двох дослідницьких працях, опублікованих 1921 та 1922 року. Праця 1921 року запровадила те, що тепер називають «проміжком правдоподібності». Праця 1922 року запровадила термін «метод максимальної правдоподібності». Цитуючи Фішера,

1922 року я запропонував термін «правдоподібність», з огляду на той факт, що по відношенню до [параметра], вона не є ймовірністю, й не підкоряється законам імовірності, в той же час привносячи до задачі раціонального обирання серед можливих значень [параметра] відношення, подібне до того, що ймовірність привносить до задачі передбачування подій в іграх випадку... Проте, в той час як по відношенню до психологічного судження правдоподібність має певну схожість з імовірністю, ці два поняття є цілком різними...

Оригінальний текст (англ.)

[I]n 1922, I proposed the term ‘likelihood,’ in view of the fact that, with respect to [the parameter], it is not a probability, and does not obey the laws of probability, while at the same time it bears to the problem of rational choice among the possible values of [the parameter] a relation similar to that which probability bears to the problem of predicting events in games of chance....Whereas, however, in relation to psychological judgment, likelihood has some resemblance to probability, the two concepts are wholly distinct....”

Поняття правдоподібності не слід плутати з імовірністю, як зазначено сером Рональдом Фішером,

Я наголошую на цьому, оскільки, незважаючи на наголос, який я завжди робив на відмінності між імовірністю та правдоподібністю, все ще існує тенденція ставитися до правдоподібності так, ніби вона є чимось на кшталт імовірності. Першим результатом відтак є те, що існує дві різні міри раціонального переконання, що відповідають різним випадкам. Знаючи сукупність, ми можемо виражати наше неповне знання або наші неповні очікування про вибірку в термінах імовірності; знаючи вибірку, ми можемо виражати наші неповні знання про сукупність у термінах правдоподібності.

Оригінальний текст (англ.)

I stress this because in spite of the emphasis that I have always laid upon the difference between probability and likelihood there is still a tendency to treat likelihood as though it were a sort of probability. The first result is thus that there are two different measures of rational belief appropriate to different cases. Knowing the population we can express our incomplete knowledge of, or expectation of, the sample in terms of probability; knowing the sample we can express our incomplete knowledge of the population in terms of likelihood.

Фішерове винайдення статистичної правдоподібності було реакцією на раніший вид міркування, званий ^[en]. Його застосування терміну «правдоподібність» зафіксувало значення цього терміну в межах математичної статистики.

^[en] (1972) заклав аксіоматичну основу для застосування логарифмічного відношення правдоподібностей як міри відносної підтри́мки (англ. support) однієї гіпотези проти іншої. Фу́нкцією підтри́мки (англ. support function) в такому разі є натуральний логарифм функції правдоподібності. Обидва терміни застосовують у філогенетиці, але їх не були прийнято в загальному трактуванні теми статистичних даних.

Інтерпретації за різних засад

Серед статистиків нема єдиної думки про те, якими повинні бути ^[en]. Існує чотири головні парадигми, які було запропоновано як засади: частотництво, баєсівство, правдоподібництво, та на основі ІКА. Для кожних із цих запропонованих засад інтерпретація правдоподібності є різною. Ці чотири інтерпретації описано в підрозділах нижче.

Частотницька інтерпретація

Баєсова інтерпретація

У баєсовім висновуванні, хоча й можливо говорити про правдоподібність будь-якого висловлення чи випадкової змінної за заданої іншої випадкової змінної, наприклад, про правдоподібність значення параметра чи статистичної моделі (див. відособлену правдоподібність) за заданих даних або іншого свідчення, функція правдоподібності залишається тією ж сутністю з додатковими інтерпретаціями (i) умовної густини ймовірності даних за заданого параметра (оскільки параметр тоді є випадковою змінною), та (ii) міри кількості інформації, що несуть дані про значення параметра або навіть про модель. Внаслідок введення ймовірнісної структури на просторі параметрів або сукупності моделей є можливим, щоби значення параметра або статистична модель мали велике значення правдоподібності для заданих даних, але в той же час низьку ймовірність, і навпаки. Таке часто трапляється в контексті медицини. Згідно правила Баєса, правдоподібність, коли розглядати її як умовну густину, можливо множини на густину апріорної ймовірності параметра й потім унормовувати, щоби отримувати густину апостеріорної ймовірності. Загальніше, правдоподібність невідомої величини $X$ за заданої іншої невідомої величини $Y$ є пропорційною до ймовірності $Y$ за заданої $X$ .

Правдоподібницька інтерпретація

У частотницькій статистиці функція правдоподібності сама по собі є статистикою, яка узагальнює окремий зразок із сукупності, й чиє обчислюване значення залежить від вибору декількох параметрів θ₁... θ_p, де p є кількістю параметрів у якійсь вже обраній статистичній моделі. Значення правдоподібності слугує критерієм якості для вибору, зробленого для параметрів, і набір параметрів з максимальною правдоподібністю є найкращим вибором за доступних даних.

Конкретним розрахунком правдоподібності є ймовірність того, що буде призначено саме спостережуваний зразок, за припущення, що обрана модель та значення цих декількох параметрів θ дають точне наближення частотного розподілу сукупності, з якої було витягнуто цей спостережуваний зразок. Евристично має сенс, що добрим вибором параметрів є той, який видає для фактично спостережуваного зразка максимально можливу апостеріорну (лат. post-hoc) ймовірність трапляння. ^[en] визначає це евристичне правило кількісно, показуючи, що різниця між логарифмом правдоподібності, породженим значеннями параметрів оцінки, та логарифмом правдоподібності, породженим «істинними» (але невідомими) значеннями параметрів сукупності, має розподіл χ².

Оцінка максимальною правдоподібністю кожного незалежного зразка є окремою оцінкою «істинного» набору параметрів, що описує сукупність, з якої роблять вибірку. Послідовні оцінки від багатьох незалежних зразків гуртуватимуться разом з «істинним» набором значень параметрів сукупності, прихованим десь поміж них. Різницю між логарифмами максимальної правдоподібності та правдоподібностей суміжних наборів параметрів можна використовувати для малювання ^[en] на графіку, чиїми координатами є параметри θ₁... θ_p. Ця область оточує оцінку максимальною правдоподібністю, і всі точки (набори параметрів) всередині цієї області відрізняються в логарифмічній правдоподібності щонайбільше на якесь встановлене значення. Розподіл χ², заданий ^[en], перетворює різниці логарифмічних правдоподібностей цієї області у «рівень довіри» до того, що «істинний» набір параметрів сукупності лежить всередині. Мистецтво обирання цієї встановленої різниці логарифмічних правдоподібностей полягає в тім, щоби робити рівень довіри прийнятно високим, в той же час тримаючи область прийнятно малою (вузька область оцінок).

В процесі спостерігання додаткових даних, замість використовувати їх для здійснення незалежних оцінок, їх можливо поєднувати з попередніми зразками в єдину об'єднану вибірку, і цю велику вибірку можливо використовувати для нової оцінки максимальною правдоподібністю. Зі збільшенням розміру цієї об'єднаної вибірки розмір області правдоподібності з таким же рівнем довіри скорочується. Врешті-решт, або розмір довірчої області стане майже єдиною точкою, або буде вибрано всю сукупність. В обох випадках, оцінений набір параметрів буде по суті таким же, як і набір параметрів сукупності.

Інтерпретація на основі ІКА

У парадигмі ІКА правдоподібність інтерпретують у контексті теорії інформації.

Див. також

Зауваження

Хоча їх і використовують часто як синоніми у неформальному контексті, у статистиці терміни «правдоподібність» та «імовірність» мають відмінні значення. Імовірність є властивістю зразка, а саме, наскільки імовірним є отримати певний зразок для заданого значення параметрів розподілу. Правдоподібність є властивістю значень параметрів. Див. Valavanis, Stefan (1959). Probability and Likelihood. Econometrics : An Introduction to Maximum Likelihood Methods. New York: McGraw-Hill. с. 24—28. OCLC 6257066. (англ.)
Масштабним коефіцієнтом є $\log _{a}b$ ; див. (Логарифм § Зміна основи)
«Холодність» є також відомою як ^[en], або ^[en]. Приклади варіювання холодності див. в ^[en] та функції softmax у статистичній механіці.
Див. ^[en]

Примітки

Myung, In Jae (2003). Tutorial on Maximum Likelihood Estimation. ^[en]. 47 (1): 90—100. doi:10.1016/S0022-2496(02)00028-7. (англ.)
; (1976), Time Series Analysis : Forecasting and Control, San Francisco: Holden-Day, с. 224, ISBN (англ.)
Fisher, R. A. ^[en]. §1.2. (англ.)
(1992). Likelihood. ^[en]. (англ.)
Berger, James O.; Wolpert, Robert L. (1988). The Likelihood Principle. Hayward: Institute of Mathematical Statistics. с. 19. ISBN . (англ.)
Bandyopadhyay, P. S.; Forster, M. R., ред. (2011). Philosophy of Statistics. North-Holland Publishing. (англ.)
(1995). Probability and Measure (вид. Third). . с. 422—423. (англ.)
Shao, Jun (2003). Mathematical Statistics (вид. 2nd). Springer. §4.4.1. (англ.)
; Monfort, Alain (1995). Statistics and Econometric Models. New York: Cambridge University Press. с. 161. ISBN . (англ.)
Mäkeläinen, Timo; Schmidt, Klaus; Styan, George P. H. (1981). On the Existence and Uniqueness of the Maximum Likelihood Estimate of a Vector-Valued Parameter in Fixed-Size Samples. ^[en]. 9 (4): 758—767. JSTOR 2240844. (англ.)
Mascarenhas, W. F. (2011). A Mountain Pass Lemma and its implications regarding the uniqueness of constrained minimizers. Optimization. 60 (8–9): 1121—1159. doi:10.1080/02331934.2010.527973. (англ.)
Chanda, K. C. (1954). A Note on the Consistency and Maxima of the Roots of Likelihood Equations. ^[en]. 41 (1–2): 56—61. doi:10.2307/2333005. (англ.)
Greenberg, Edward; Webster, Charles E. Jr. (1983). Advanced Econometrics: A Bridge to the Literature. New York: John Wiley & Sons. с. 24—25. ISBN . (англ.)
Buse, A. (1982). The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note. ^[en]. 36 (3a): 153—157. doi:10.1080/00031305.1982.10482817. (англ.)
(1985), Probability and Statistical Inference, Springer (§9.3). (англ.)
Azzalini, A. (1996), Statistical Inference—Based on the likelihood, , ISBN (§1.4.2). (англ.)
Sprott, D. A. (2000), Statistical Inference in Science, Springer (chap. 2). (англ.)
Davison, A. C. (2008), Statistical Models, Cambridge University Press (§4.1.2). (англ.)
Held, L.; Sabanés Bové, D. S. (2014), Applied Statistical Inference—Likelihood and Bayes, Springer (§2.1). (англ.)
Rossi, R. J. (2018), Mathematical Statistics, , с. 267 (англ.)
Hudson, D. J. (1971), Interval estimation from the likelihood function, ^[en], 33 (2): 256—262 (англ.)
Pawitan, Yudi (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. Oxford University Press. (англ.)
Wen Hsiang Wei. Generalized Linear Model - course notes. Taichung, Taiwan: ^[en]. с. Chapter 5. Процитовано 1 жовтня 2017. (англ.)
(1985). Concentrated Likelihood Function. Advanced Econometrics. Cambridge: Harvard University Press. с. 125–127. ISBN . (англ.)
Davidson, Russell; (1993). Concentrating the Loglikelihood Function. Estimation and Inference in Econometrics. New York: Oxford University Press. с. 267–269. ISBN . (англ.)
Gourieroux, Christian; Monfort, Alain (1995). Concentrated Likelihood Function. Statistics and Econometric Models. New York: Cambridge University Press. с. 170—175. ISBN . (англ.)
Pickles, Andrew (1985). An Introduction to Likelihood Analysis. Norwich: W. H. Hutchins & Sons. с. 21–24. ISBN . (англ.)
Bolker, Benjamin M. (2008). Ecological Models and Data in R. Princeton University Press. с. 187—189. ISBN . (англ.)
Aitkin, Murray (1982). Direct Likelihood Inference. GLIM 82: Proceedings of the International Conference on Generalised Linear Models. Springer. с. 76—86. ISBN . (англ.)
Venzon, D. J.; Moolgavkar, S. H. (1988). A Method for Computing Profile-Likelihood-Based Confidence Intervals. ^[en]. Series C (Applied Statistics). 37 (1): 87—94. doi:10.2307/2347496. (англ.)
Kalbfleisch, J. D.; Sprott, D. A. (1973). Marginal and Conditional Likelihoods. Sankhyā: The Indian Journal of Statistics. Series A. 35 (3): 311—328. JSTOR 25049882. (англ.)
(1975). Partial likelihood. ^[en]. 62 (2): 269—276. doi:10.1093/biomet/62.2.269. MR 0400509. (англ.)
Kass, Robert E.; Vos, Paul W. (1997). Geometrical Foundations of Asymptotic Inference. New York: John Wiley & Sons. с. 14. ISBN . (англ.)
Papadopoulos, Alecos (25 вересня 2013). Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)?. Stack Exchange. (англ.)
Foutz, Robert V. (1977). On the Unique Consistent Solution to the Likelihood Equations. ^[en]. 72 (357): 147—148. doi:10.1080/01621459.1977.10479926. (англ.)
Tarone, Robert E.; Gruenhage, Gary (1975). A Note on the Uniqueness of Roots of the Likelihood Equations for Vector-Valued Parameters. Journal of the American Statistical Association. 70 (352): 903—904. doi:10.1080/01621459.1975.10480321. (англ.)
Rai, Kamta; Van Ryzin, John (1982). A Note on a Multivariate Version of Rolle's Theorem and Uniqueness of Maximum Likelihood Roots. Communications in Statistics. Theory and Methods. 11 (13): 1505—1510. doi:10.1080/03610928208828325. (англ.)
Rao, B. Raja (1960). A formula for the curvature of the likelihood surface of a sample drawn from a distribution admitting sufficient statistics. ^[en]. 47 (1–2): 203—207. doi:10.1093/biomet/47.1-2.203. (англ.)
Ward, Michael D.; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. Cambridge University Press. с. 25—27. (англ.)
"likelihood", ^[en] (2007). (англ.)
(1999). On the history of maximum likelihood in relation to inverse probability and least squares. ^[en]. 14 (2): 214—222. doi:10.1214/ss/1009212248. JSTOR 2676741. (англ.)
Fisher, R.A. (1921). On the "probable error" of a coefficient of correlation deduced from a small sample. Metron. 1: 3—32. (англ.)
Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society A. 222 (594–604): 309—368. doi:10.1098/rsta.1922.0009. JFM 48.1280.02. JSTOR 91208. (англ.)
Klemens, Ben (2008). Modeling with Data: Tools and Techniques for Scientific Computing. Princeton University Press. с. 329. (англ.)
Fisher, Ronald (1930). Inverse Probability. Mathematical Proceedings of the Cambridge Philosophical Society. 26 (4): 528—535. doi:10.1017/S0305004100016297. (англ.)
Fienberg, Stephen E (1997). Introduction to R.A. Fisher on inverse probability and likelihood. ^[en]. 12 (3): 161. doi:10.1214/ss/1030037905. (англ.)
Royall, R. (1997). Statistical Evidence. . (англ.)
I. J. Good: Probability and the Weighing of Evidence (Griffin 1950), §6.1 (англ.)
H. Jeffreys: Theory of Probability (3rd ed., Oxford University Press 1983), §1.22 (англ.)
E. T. Jaynes: Probability Theory: The Logic of Science (Cambridge University Press 2003), §4.1 (англ.)

[1] Хоча їх і використовують часто як синоніми у неформальному контексті, у статистиці терміни «правдоподібність» та «імовірність» мають відмінні значення. Імовірність є властивістю зразка, а саме, наскільки імовірним є отримати певний зразок для заданого значення параметрів розподілу. Правдоподібність є властивістю значень параметрів. Див. Valavanis, Stefan (1959). Probability and Likelihood. Econometrics : An Introduction to Maximum Likelihood Methods. New York: McGraw-Hill. с. 24—28. OCLC 6257066. (англ.)

[36] Масштабним коефіцієнтом є $\log _{a}b$ ; див. (Логарифм § Зміна основи)

[37] «Холодність» є також відомою як ^[en], або ^[en]. Приклади варіювання холодності див. в ^[en] та функції softmax у статистичній механіці.

[43] Див. ^[en]

[2] Myung, In Jae (2003). Tutorial on Maximum Likelihood Estimation. ^[en]. 47 (1): 90—100. doi:10.1016/S0022-2496(02)00028-7. (англ.)

[3] ; (1976), Time Series Analysis : Forecasting and Control, San Francisco: Holden-Day, с. 224, ISBN (англ.)

[4] Fisher, R. A. ^[en]. §1.2. (англ.)

[5] (1992). Likelihood. ^[en]. (англ.)

[6] Berger, James O.; Wolpert, Robert L. (1988). The Likelihood Principle. Hayward: Institute of Mathematical Statistics. с. 19. ISBN . (англ.)

[BF11-7] Bandyopadhyay, P. S.; Forster, M. R., ред. (2011). Philosophy of Statistics. North-Holland Publishing. (англ.)

[8] (1995). Probability and Measure (вид. Third). . с. 422—423. (англ.)

[Shao03-9] Shao, Jun (2003). Mathematical Statistics (вид. 2nd). Springer. §4.4.1. (англ.)

[10] ; Monfort, Alain (1995). Statistics and Econometric Models. New York: Cambridge University Press. с. 161. ISBN . (англ.)

[11] Mäkeläinen, Timo; Schmidt, Klaus; Styan, George P. H. (1981). On the Existence and Uniqueness of the Maximum Likelihood Estimate of a Vector-Valued Parameter in Fixed-Size Samples. ^[en]. 9 (4): 758—767. JSTOR 2240844. (англ.)

[12] Mascarenhas, W. F. (2011). A Mountain Pass Lemma and its implications regarding the uniqueness of constrained minimizers. Optimization. 60 (8–9): 1121—1159. doi:10.1080/02331934.2010.527973. (англ.)

[13] Chanda, K. C. (1954). A Note on the Consistency and Maxima of the Roots of Likelihood Equations. ^[en]. 41 (1–2): 56—61. doi:10.2307/2333005. (англ.)

[14] Greenberg, Edward; Webster, Charles E. Jr. (1983). Advanced Econometrics: A Bridge to the Literature. New York: John Wiley & Sons. с. 24—25. ISBN . (англ.)

[15] Buse, A. (1982). The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note. ^[en]. 36 (3a): 153—157. doi:10.1080/00031305.1982.10482817. (англ.)

[Kalbfleisch-16] (1985), Probability and Statistical Inference, Springer (§9.3). (англ.)

[17] Azzalini, A. (1996), Statistical Inference—Based on the likelihood, , ISBN (§1.4.2). (англ.)

[Sprott-18] Sprott, D. A. (2000), Statistical Inference in Science, Springer (chap. 2). (англ.)

[19] Davison, A. C. (2008), Statistical Models, Cambridge University Press (§4.1.2). (англ.)

[20] Held, L.; Sabanés Bové, D. S. (2014), Applied Statistical Inference—Likelihood and Bayes, Springer (§2.1). (англ.)

[Rossi2018-21] Rossi, R. J. (2018), Mathematical Statistics, , с. 267 (англ.)

[Hudson-22] Hudson, D. J. (1971), Interval estimation from the likelihood function, ^[en], 33 (2): 256—262 (англ.)

[23] Pawitan, Yudi (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. Oxford University Press. (англ.)

[24] Wen Hsiang Wei. Generalized Linear Model - course notes. Taichung, Taiwan: ^[en]. с. Chapter 5. Процитовано 1 жовтня 2017. (англ.)

[25] (1985). Concentrated Likelihood Function. Advanced Econometrics. Cambridge: Harvard University Press. с. 125–127. ISBN . (англ.)

[26] Davidson, Russell; (1993). Concentrating the Loglikelihood Function. Estimation and Inference in Econometrics. New York: Oxford University Press. с. 267–269. ISBN . (англ.)

[27] Gourieroux, Christian; Monfort, Alain (1995). Concentrated Likelihood Function. Statistics and Econometric Models. New York: Cambridge University Press. с. 170—175. ISBN . (англ.)

[28] Pickles, Andrew (1985). An Introduction to Likelihood Analysis. Norwich: W. H. Hutchins & Sons. с. 21–24. ISBN . (англ.)

[29] Bolker, Benjamin M. (2008). Ecological Models and Data in R. Princeton University Press. с. 187—189. ISBN . (англ.)

[30] Aitkin, Murray (1982). Direct Likelihood Inference. GLIM 82: Proceedings of the International Conference on Generalised Linear Models. Springer. с. 76—86. ISBN . (англ.)

[31] Venzon, D. J.; Moolgavkar, S. H. (1988). A Method for Computing Profile-Likelihood-Based Confidence Intervals. ^[en]. Series C (Applied Statistics). 37 (1): 87—94. doi:10.2307/2347496. (англ.)

[32] Kalbfleisch, J. D.; Sprott, D. A. (1973). Marginal and Conditional Likelihoods. Sankhyā: The Indian Journal of Statistics. Series A. 35 (3): 311—328. JSTOR 25049882. (англ.)

[33] (1975). Partial likelihood. ^[en]. 62 (2): 269—276. doi:10.1093/biomet/62.2.269. MR 0400509. (англ.)

[34] Kass, Robert E.; Vos, Paul W. (1997). Geometrical Foundations of Asymptotic Inference. New York: John Wiley & Sons. с. 14. ISBN . (англ.)

[35] Papadopoulos, Alecos (25 вересня 2013). Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)?. Stack Exchange. (англ.)

[38] Foutz, Robert V. (1977). On the Unique Consistent Solution to the Likelihood Equations. ^[en]. 72 (357): 147—148. doi:10.1080/01621459.1977.10479926. (англ.)

[39] Tarone, Robert E.; Gruenhage, Gary (1975). A Note on the Uniqueness of Roots of the Likelihood Equations for Vector-Valued Parameters. Journal of the American Statistical Association. 70 (352): 903—904. doi:10.1080/01621459.1975.10480321. (англ.)

[40] Rai, Kamta; Van Ryzin, John (1982). A Note on a Multivariate Version of Rolle's Theorem and Uniqueness of Maximum Likelihood Roots. Communications in Statistics. Theory and Methods. 11 (13): 1505—1510. doi:10.1080/03610928208828325. (англ.)

[41] Rao, B. Raja (1960). A formula for the curvature of the likelihood surface of a sample drawn from a distribution admitting sufficient statistics. ^[en]. 47 (1–2): 203—207. doi:10.1093/biomet/47.1-2.203. (англ.)

[42] Ward, Michael D.; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. Cambridge University Press. с. 25—27. (англ.)

[44] "likelihood", ^[en] (2007). (англ.)

[45] (1999). On the history of maximum likelihood in relation to inverse probability and least squares. ^[en]. 14 (2): 214—222. doi:10.1214/ss/1009212248. JSTOR 2676741. (англ.)

[46] Fisher, R.A. (1921). On the "probable error" of a coefficient of correlation deduced from a small sample. Metron. 1: 3—32. (англ.)

[Fisher1922-47] Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society A. 222 (594–604): 309—368. doi:10.1098/rsta.1922.0009. JFM 48.1280.02. JSTOR 91208. (англ.)

[48] Klemens, Ben (2008). Modeling with Data: Tools and Techniques for Scientific Computing. Princeton University Press. с. 329. (англ.)

[49] Fisher, Ronald (1930). Inverse Probability. Mathematical Proceedings of the Cambridge Philosophical Society. 26 (4): 528—535. doi:10.1017/S0305004100016297. (англ.)

[50] Fienberg, Stephen E (1997). Introduction to R.A. Fisher on inverse probability and likelihood. ^[en]. 12 (3): 161. doi:10.1214/ss/1030037905. (англ.)

[51] Royall, R. (1997). Statistical Evidence. . (англ.)

[good1950-52] I. J. Good: Probability and the Weighing of Evidence (Griffin 1950), §6.1 (англ.)

[jeffreys1983-53] H. Jeffreys: Theory of Probability (3rd ed., Oxford University Press 1983), §1.22 (англ.)

[jaynes2003-54] E. T. Jaynes: Probability Theory: The Logic of Science (Cambridge University Press 2003), §4.1 (англ.)