У статистиці фу́нкція правдоподі́бності (англ. likelihood function, часто звана просто правдоподі́бністю, англ. likelihood) вимірює допасованість статистичної моделі до вибірки даних для заданих значень невідомих параметрів. Її утворюють зі спільного розподілу ймовірності цієї вибірки, але розглядають та використовують як функцію лише від цих параметрів, відтак розглядаючи випадкові змінні як зафіксовані в спостережуваних значеннях.
Функція правдоподібності описує гіперповерхню, чий пік, якщо він існує, представляє поєднання значень параметрів моделі, які максимізують імовірність витягування отриманої вибірки. Процедура отримання цих аргументів максимізації функції правдоподібності є відомою як оцінювання максимальною правдоподібністю, яке, заради обчислювальної зручності, зазвичай застосовують з використанням натурального логарифма правдоподібності, відомого як фу́нкція логарифмі́чної правдоподі́бності (англ. log-likelihood function). Крім того, форма та кривина поверхні правдоподібності несуть інформацію про стійкість цих оцінок, через що як частину статистичного аналізу часто здійснюють побудову графіку функції правдоподібності.
Варіант використання правдоподібності першим зробив Рональд Фішер, який мав переконання, що він є самодостатньою системою для статистичного моделювання та висновування. Згодом [en] та [en] очолили наукову школу, яка виступила за принцип правдоподібності, постулюючи, що вся доречна інформація для висновування міститься у функції правдоподібності. Але навіть і в частотницькій та баєсовій статистиці функція правдоподібності відіграє́ фундаментальну роль.
Означення
Функцію правдоподібності зазвичай означують по-різному для дискретних та неперервних розподілів імовірності. Загальне означення також є можливим, як обговорено нижче.
Дискретний розподіл імовірності
Нехай буде дискретною випадковою змінною з функцією маси ймовірності , залежною від параметра . Тоді функція
що розглядають як функцію від , є функцією правдоподібності для заданого [en] випадкової змінної . Іноді ймовірність «значення випадкової змінної для значення параметра » записують як P(X = x | θ) або P(X = x; θ). не слід плутати з : правдоподібність дорівнює ймовірності спостерігання певного результату , коли справжнім значенням параметра є , і відтак дорівнює густині ймовірності над результатом , а не над параметром .
Приклад
Розгляньмо просту статистичну модель підкидання монети: єдиний параметр , що виражає «справедливість» цієї монети. Цей параметр є ймовірністю того, що монета після підкидання впаде аверсом (англ. heads, H) догори. може набувати будь-якого значення в проміжку з 0.0 по 1.0. Для ідеально [en] .
Уявімо підкидання справедливої монети двічі, й спостерігання наступних даних: два аверси за два підкидання (HH). Якщо виходити з припущення, що кожне наступне підкидання монети є н. о. р., то ймовірністю спостерігання HH є
Отже, за заданих даних спостережень HH, правдоподібністю того, що параметр моделі дорівнює 0.5, є 0.25. Математично це записують як
Це не те ж саме, що й сказати, що ймовірністю того, що , за заданого спостереження HH є 0.25. (Для цього ми можемо застосувати теорему Баєса, яка означає, що апостеріорна ймовірність є пропорційною до правдоподібності, помноженої на апріорну ймовірність.)
Припустімо, що ця монета не є справедливою, але натомість має . Тоді ймовірністю отримання двох аверсів є
Отже,
Загальніше, для кожного значення ми можемо обчислити відповідну правдоподібність. Результати таких обчислень показано на Рис. 1.
На Рис. 1. інтегралом правдоподібності над проміжком [0, 1] є 1/3. Це висвітлює важливий аспект правдоподібностей: правдоподібності не мають інтегруватися (чи підсумовуватися) до 1, на відміну від імовірностей.
Неперервний розподіл імовірності
Нехай буде випадковою змінною, що слідує (абсолютно неперервному розподілові ймовірності) з функцією густини , залежною від параметра . Тоді функція
що розглядають як функцію від , є функцією правдоподібності (параметра для заданого [en] змінної ). Іноді функцію густини для «значення змінної для значення параметра » записують як . не слід плутати з : правдоподібність дорівнює густині ймовірності на певному результаті , коли справжнім значенням параметра є , і відтак вона дорівнює густині ймовірності над результатом , а не над параметром .
Загальний випадок
В [en] функцію густини означують як похідну Радона — Нікодима розподілу ймовірності відносно спільної домінантної міри. Функція правдоподібності є цією густиною, інтерпретованою як функція від параметра (можливо, векторного), а не від можливих результатів. Це забезпечує функцію правдоподібності для будь-якої статистичної моделі з усіма розподілами, чи то дискретними, абсолютно неперервними, сумішшю, чи чимось ще. (Правдоподібності буде можливо порівнювати, наприклад, для оцінювання параметрів, лише якщо вони є похідними Радона — Нікодима по відношенню до однієї й тієї ж домінантної міри.)
Наведене вище обговорення правдоподібності з дискретними ймовірностями є окремим випадком цього із застосуванням лічильної міри, яка робить імовірність будь-якого одиничного результату рівною густині ймовірності для цього результату.
Якщо не задано жодної події (немає даних), то ймовірністю, і відтак правдоподібністю, є 1.[] Будь-яка нетривіальна подія матиме нижчу правдоподібність.
Функція правдоподібності параметризованої моделі
Із багатьох застосувань ми розглянемо тут одне, що має широку теоретичну та практичну важливість. Для заданого [en] функцій густини ймовірності (або функцій маси ймовірності у випадку дискретних розподілів)
де є параметром, фу́нкцією правдоподі́бності (англ. likelihood function) є
що записують як
де є спостережуваним результатом експерименту. Іншими словами, коли розглядають як функцію від за незмінного , вона є функцією густини ймовірності, а коли її розглядають як функцію від за незмінного , вона є функцією правдоподібності.
Це не є тим же, що й імовірність того, що ці параметри є правильними за заданої спостережуваної вибірки. Намагання інтерпретувати правдоподібність гіпотези за заданого спостережуваного свідчення як її імовірність є поширеною помилкою з потенційно катастрофічними наслідками. Як приклад цього див. помилку прокурора.
З геометричної точки зору, якщо ми розглядаємо як функцію від двох змінних, то сімейство розподілів імовірності можливо розглядати як сімейство кривих, паралельних до осі , тоді як сімейство функцій правдоподібності є перпендикулярними кривими, паралельними до осі .
Правдоподібності для неперервних розподілів
Застосування густини ймовірності у визначенні функції правдоподібності вище може бути пояснено наступним чином. Для заданих спостережень правдоподібність для проміжку , де є сталою, задають як . Зверніть увагу, що
- ,
оскільки є додатною та сталою. Оскільки
де є функцією густини ймовірності, з цього випливає, що
- .
Перша фундаментальна теорема інтегрального числення та правило Лопіталя разом забезпечують, що
Тоді
Отже,
і відтак максимізування густини ймовірності в є рівносильним максимізуванню правдоподібності конкретного спостереження .
Правдоподібності для змішаних неперервно-дискретних розподілів
Наведене вище може бути в простий спосіб розширено так, щоби дозволяти розгляд розподілів, що містять як дискретні, так і неперервні складові. Припустімо, що такий розподіл складається з якоїсь кількості дискретних мас імовірності та з густини , де сума всіх , додана до інтегралу , завжди є одиницею. За припущення, що можливо розрізняти спостереження, що відповідає одній з цих дискретних мас імовірності, від того, що відповідає складовій густини, функцію правдоподібності для спостереження з неперервної складової можливо розглядати наведеним вище чином. Для спостереження з дискретної складової функцією правдоподібності для спостереження з цієї дискретної складової є просто
де є індексом маси дискретної ймовірності, що відповідає спостереженню , оскільки максимізування маси ймовірності (або ймовірності) в є рівносильним максимізуванню правдоподібності цього конкретного спостереження.
Той факт, що функцію правдоподібності може бути визначено в спосіб, що включає не порівнянні внески (густина та маса ймовірності), випливає зі способу її визначення, в якому функцію правдоподібності визначено з точністю до сталої пропорційності, де ця «стала» може змінюватися зі спостереженням , але не з параметром .
Умови регулярності
В контексті оцінювання параметрів зазвичай виходять з того, що функція правдоподібності задовольняє певні умови, відомі як умови регулярності (англ. regularity conditions). З цих умов виходять у багатьох доведеннях, що включають функції правдоподібності, і їх потрібно перевіряти в кожному конкретному застосуванні. Для методу максимальної правдоподібності надзвичайно важливим є існування глобального максимуму функції правдоподібності. Згідно другої теореми Веєрштраса, неперервна функція правдоподібності на компактному просторі параметрів є достатньою для існування оцінювача максимальною правдоподібністю. В той час як припущення про неперервність зазвичай виконується, припущення про компактність простору параметрів часто не виконується, оскільки межі справжніх значень параметрів є невідомими. В такому випадку ключову роль відіграє угнутість функції правдоподібності.
Конкретніше, якщо функція правдоподібності є двічі неперервно диференційовною на k-вимірному просторі параметрів , що вважають відкритою зв'язаною підмножиною , то унікальний максимум існує, якщо
- є від'ємно визначеною для кожного , для якого градієнт зникає, та
- , тобто функція правдоподібності наближується до сталої на межі простору параметрів, яка може включати точки на нескінченності, якщо є необмеженим.
Макелайнен та ін. доводять цей результат, застосовуючи теорію Морса, неформально звертаючись до властивості гірського перевалу. Машкареньяш підтверджує їхнє доведення, застосовуючи [en].
В доведенні слушності та асимптотичної нормальності оцінювача максимальною правдоподібністю роблять додаткові припущення про густи́ни ймовірностей, які складають основу певної функції правдоподібності. Ці умови було вперше встановлено Чандою. Зокрема, для майже всіх , та для всіх
існують для всіх , щоби забезпечити існування розкладу Тейлора. По-друге, для майже всіх та для кожного мусить бути
де є такою, що . Ця обмеженість похідних є потрібною, щоби уможливити [en]. І, нарешті, передбачається, що [en]
є додатно визначеною, а є скінченною. Це забезпечує скінченність дисперсії внеску.
Наведені вище умови є достатніми, але не необхідними. Тобто, модель, що не задовольняє ці умови регулярності, може мати, а може й не мати оцінювача максимальною правдоподібністю згаданих вище властивостей. Крім того, у випадку не незалежно або не однаково розподілених спостережень може бути потрібно очікувати додаткових властивостей.
Відношення правдоподібностей та відносна правдоподібність
Відношення правдоподібностей
Відно́шення правдоподі́бностей (англ. likelihood ratio) — це відношення будь-яких двох вказаних правдоподібностей, що часто записують як
Відношення правдоподібностей є центральним для правдоподібницької статистики: закон правдоподібності встановлює, що ступінь, до якого дані (що розглядають як свідчення) підтримують один параметр проти іншого, вимірюється відношенням правдоподібностей.
В частотницькому висновуванні відношення правдоподібності є основою для статистичного критерію, так званої перевірки відношенням правдоподібностей. Згідно [en], вона є найпотужнішою перевіркою для порівнювання двох простих гіпотез на заданому рівні значущості. Численні інші критерії можливо розглядати як перевірки відношенням правдоподібностей, або його наближеннями. Асимптотичний розподіл логарифмічного відношення правдоподібностей, що розглядають як статистичний критерій, задано [en].
Відношення правдоподібностей також має центральне значення в баєсовім висновуванні, де воно є відомим як коефіцієнт Баєса, і застосовується в правилі Баєса. Викладене в термінах [en] (англ. odds), правило Баєса полягає в тім, що апостеріорні шанси двох альтернатив, та , за умови події , є апріорними шансами, помноженими на відношення правдоподібностей. У вигляді рівняння:
Відношення правдоподібності не використовують в статистиці на основі ІКА напряму. Натомість використовують відносну правдоподібність моделей (див. нижче).
Відмінність від відношення шансів
Відношення правдоподібностей двох моделей, коли задано одну й ту ж подію, може бути протиставлено з [en] двох подій, коли задано одну й ту ж модель. В термінах параметризованої функції маси ймовірності , відношенням правдоподібностей двох параметрів та за заданого результату є
тоді як шансами двох результатів, та , за заданого значення параметра , є
Це підкреслює різницю між правдоподібностями та шансами: в правдоподібностях порівнюють моделі (параметри), тримаючи дані незмінними, тоді як в шансах порівнюють події (результати, дані), тримаючи незмінною модель.
[en] є відношенням двох умовних шансів (події, за заданої присутності або відсутності іншої події). Проте відношення шансів також можливо інтерпретувати як відношення двох відношень правдоподібностей, якщо розглядати одну з подій як спостережувану легше за іншу. Див. діагностичне відношення шансів, де результат перевірки для встановлення діагнозу спостерігати легше, ніж наявність або відсутність медичного стану, що лежить в його основі.
Функція відносної правдоподібності
Оскільки фактичне значення функції правдоподібності залежить від вибірки, часто зручно працювати зі стандартизованою мірою. Припустімо, що оцінкою максимальною правдоподібністю для параметра θ є . Відносні достовірності (англ. plausibilities) інших значень θ може бути знайдено порівнюванням правдоподібностей цих інших значень з правдоподібністю . Відно́сну правдоподі́бність (англ. relative likelihood) θ означують як
Таким чином, відносна правдоподібність є відношенням правдоподібностей (обговореним вище) з незмінним знаменником . Це відповідає унормуванню цієї правдоподібності, щоби вона мала за максимум 1.
Область правдоподібності
О́бласть правдоподі́бності (англ. likelihood region) — це множина всіх значень θ, чиї відносні правдоподібності є більшими або рівними заданому порогові. В термінах відсотків, p%-ву область правдоподібності для θ означують як
Якщо θ є єдиним дійснозначним параметром, то p%-ва область правдоподібності зазвичай становить проміжок дійсних значень. Якщо ця область дійсно становить проміжок, то її називають про́міжком правдоподі́бності (англ. likelihood interval).
Проміжки правдоподібності, та, загальніше, області правдоподібності використовують для [en] в правдоподібницькій статистиці: вони є подібними до довірчих проміжків у частотницькій статистиці та ймовірних проміжків у баєсовій статистиці. Проміжки правдоподібності тлумачать безпосередньо в термінах відносної правдоподібності, а не в термінах [en] (частотництво) чи апостеріорної ймовірності (баєсівство).
Для заданої моделі проміжки правдоподібності можливо порівнювати з довірчими проміжками. Якщо θ є єдиним дійснозначним параметром, то, за певних умов 14.65%-й проміжок правдоподібності (правдоподібність близько 1:7) для θ буде таким же, як і 95%-й довірчий проміжок (ймовірність накриття 19/20). У дещо відмінному формулюванні, пристосованому для використання логарифмічних правдоподібностей (див. (теорему Уілкса)), перевірна статистика є подвоєною різницею логарифмічних правдоподібностей, а розподіл імовірності цієї перевірної статистики приблизно є розподілом хі-квадрат зі ступенями вільності, що дорівнюють різниці в ступенях вільності між цими двома моделями (тому проміжок правдоподібності e−2 є таким же, як і довірчий проміжок 0.954, за припущення, що різницею в ступенях вільності є 1).
Правдоподібності, що усувають завадні параметри
В багатьох випадках правдоподібність є функцією більш ніж одного параметра, але інтерес зосереджується на оцінюванні лише одного, або щонайбільше декількох з них, з розглядом інших як [en]. Було розроблено декілька альтернативних підходів для усування таких завадних параметрів таким чином, щоби функцію правдоподібності могло бути записано як функцію лише параметра (або параметрів), що становлять інтерес: головними підходами є профільна (англ. profile), умовна (англ. conditional) та відособлена (англ. marginal) правдоподібності. Ці підходи є також корисними, коли потрібно звужувати поверхні правдоподібності високої вимірності до одного чи двох параметрів, що становлять інтерес, щоби уможливити побудову графіку.
Профільна правдоподібність
Можливо знижувати розмірності, зосереджуючи функцію правдоподібності на підмножині параметрів шляхом виражання завадних параметрів як функцій від параметрів, що становлять інтерес, і заміни їх у функції правдоподібності. Загалом, для функції правдоподібності, що залежить від вектору параметрів , який можливо розбити на , і де відповідність можливо визначити явно, зосереджування знижує обчислювальне навантаження первинної задачі максимізації.
Наприклад, в лінійній регресії з нормально розподіленими похибками, , вектор коефіцієнтів може бути розбито на (а [en], відповідно, на ). Максимізування відносно видає функцію оптимального значення . Із застосуванням цього результату оцінювач максимальною правдоподібністю для може бути виведено як
де є [en] . Цей результат є відомим як [en].
Оскільки графічно процедура зосереджування є рівнозначною нарізанню поверхні правдоподібності по хребту значень завадного параметра , яке максимізує функцію правдоподібності, створюючи ізометричний [en] функції правдоподібності для заданого , результат цієї процедури є також відомим як про́фільна правдоподі́бність (англ. profile likelihood). На додачу до графічного зображування, профільну правдоподібність також можливо використовувати для обчислювання довірчих проміжків, які часто мають кращі властивості на малих вибірках, ніж основані на асимптотичних стандартних похибках, обчислюваних із повної правдоподібності.
Умовна правдоподібність
Іноді для завадних параметрів можливо знайти достатню статистику, і обумовлювання цією статистикою дає в результаті правдоподібність, що не залежить від завадних параметрів.
Один із прикладів трапляється в таблицях 2×2, де обумовлювання усіма чотирма відособленими підсумками веде до умовної правдоподібності на основі нецентрального гіпергеометричного розподілу. Цей вид обумовлювання є також основою [en].
Відособлена правдоподібність
Іноді ми можемо усувати завадні параметри, розглядаючи правдоподібність на основі лише частини інформації з даних, наприклад, застосуванням набору порядків замість числових значень. Інший приклад трапляється в лінійних змішаних моделях, де розгляд правдоподібності лише для залишків після допасовування фіксованих впливів веде до оцінювання [en] складових відхилення.
Часткова правдоподібність
Часткова правдоподібність (англ. partial likelihood) — це таке пристосування повної правдоподібності, що в ньому є лише частина параметрів (параметри, що становлять інтерес). Вона є ключовою складовою [en]: з використанням обмеження на функцію ризиків, правдоподібність не містить фігури ризику в часі.
Добуток правдоподібностей
Правдоподібність за заданих двох або більше незалежних подіях є добутком правдоподібностей кожної з цих окремих подій:
Це випливає з означення незалежності в теорії ймовірностей: імовірністю трапляння двох незалежних подій за заданої моделі є добуток цих імовірностей.
Це є особливо важливим, коли події походять від незалежних однаково розподілених випадкових змінних, таких як незалежні спостереження або [en]. В такій ситуації функція правдоподібності розкладається на добуток окремих функцій правдоподібностей.
Порожній добуток має значення 1, яке відповідає правдоподібності за відсутності події, що становить 1: перед будь-якими даними правдоподібністю завжди є 1. Це є подібним до рівномірного апріорного в баєсовій статистиці, але в правдоподібницькій статистиці це не є некоректним апріорним, оскільки правдоподібності не інтегруються.
Логарифмічна правдоподібність
Детальніші відомості з цієї теми ви можете знайти в статті Логарифмічна ймовірність.
Фу́нкція логарифмі́чної правдоподі́бності (англ. log-likelihood function) — це логарифмічне перетворення функції правдоподібності, яке часто позначують маленькою l або , на противагу до великої L або для самої правдоподібності. Оскільки угнутість відіграє́ в максимізації ключову роль, а більшість поширених розподілів імовірності, зокрема, [en], є лише логарифмічно угнутими, зазвичай набагато зручніше працювати з функціями логарифмічних правдоподібностей. Також, логарифмічна правдоподібність є особливо зручною в оцінюванні максимальною правдоподібністю. Оскільки логарифми є строго висхідними функціями, максимізування правдоподібності є рівнозначним максимізуванню логарифмічної правдоподібності.
За умови незалежності кожної з подій, загальна логарифмічна правдоподібність перетину дорівнює сумі логарифмічних правдоподібностей окремих подій. Це є аналогічним тому фактові, що загальна логарифмічна ймовірність є сумою логарифмічних імовірностей цих окремих подій. На додачу до математичної зручності, яку це дає, процес додавання логарифмічних правдоподібностей має інтуїтивну інтерпретацію, яку часто виражають як «підтримку» даними. Коли параметри оцінюють, застосовуючи логарифмічну правдоподібність для оцінювання максимальною правдоподібністю, кожну точку даних використовують додаванням до підсумкової логарифмічної правдоподібності. Оскільки ці дані можливо розглядати як свідчення, що підтримують оцінювані параметри, цей процес можливо інтерпретувати як «підтримка від незалежних свідчень додається», а логарифмічна правдоподібність є «вагою свідчення». Якщо інтерпретувати від'ємну логарифмічну правдоподібність як власну інформацію, або несподіваність, то підтримка (логарифмічна правдоподібність) моделі, за заданої події, є від'ємною несподіваністю цієї події за заданої моделі: модель підтримувано подією в тій мірі, в якій ця подія не є несподіваною за заданої моделі.
Вибір основи b для логарифма відповідає виборові масштабу. Зазвичай використовують натуральний логарифм, й основу залишають незмінною, але іноді основу роблять змінною, в разі чого записуючи основу як , коефіцієнт β можливо інтерпретувати як [en].
Логарифм відношення правдоподібностей дорівнює різниці логарифмічних правдоподібностей:
Точно як і правдоподібність, що за відсутності події є 1, логарифмічною правдоподібністю за відсутності події є 0, що відповідає значенню нульової суми: без бодай якихось даних не існує підтримки для жодної моделі.
Рівняння правдоподібності
Якщо функція логарифмічної правдоподібності є гладкою, то її градієнт відносно параметра, відомий як внесок і записуваний як , існує й дозволяє застосовувати диференціальне числення. Базовим способом максимізувати диференційовну функцію є знаходити стаціонарні точки (такі, де її похідна є нульовою). Оскільки похідна суми є просто сумою похідних, а похідна добутку вимагає правила добутку, простіше обчислювати стаціонарні точки логарифмічної правдоподібності окремих подій, ніж правдоподібності окремих подій.
Рівняння, що визначає стаціонарна точка функції внеску, слугують [en] для оцінювача максимальною правдоподібністю.
В цьому сенсі оцінювач максимальною правдоподібністю неявно визначається значенням в оберненої функції , де є d-вимірним евклідовим простором. Шляхом застосування теореми про обернену функцію можливо показати, що є [en] у [en] навколо з імовірністю, що прямує до одиниці, а є слушною оцінкою . Як наслідок, існує така послідовність , що асимптотично майже напевно, і . Аналогічний результат можливо встановити, застосувавши теорему Ролля.
Друга похідна, обчислювана в , відома як інформація за Фішером, визначає кривину поверхні правдоподібності, і відтак показуючи [en] оцінки.
Експоненційні сімейства
Детальніші відомості з цієї теми ви можете знайти в статті [en].
Логарифмічна правдоподібність є також надзвичайно корисною для [en] розподілів, до яких можуть входити багато поширених [en]. Функція розподілу ймовірності (й відтак функція правдоподібності) для експоненційних сімейств містить добутки множників, що містять піднесення до степеня. Логарифм такої функції є сумою добутків, знов-таки простішою для диференціювання за первинну функцію.
Експоненційне сімейство — це таке, чия функція густини ймовірності має вигляд (для деяких функцій, із позначенням через внутрішнього добутку):
Кожен із цих членів має інтерпретацію, але простий перехід від імовірності до правдоподібності та взяття логарифмів дає суму
та відповідають зміні координат, тож у цих координатах логарифмічна правдоподібність експоненційного сімейства задається простою формулою
Словами, логарифмічна правдоподібність експоненційного сімейства є внутрішнім добутком природного параметра та достатньої статистики , мінус коефіцієнт унормування ([en]) . Таким чином, наприклад, оцінку максимальною правдоподібністю може бути обчислено взяттям похідних достатньої статистики T та логарифмічної статистичної суми A.
Приклад: гамма-розподіл
Гамма-розподіл — це експоненційне сімейство з двома параметрами, та . Його функцією правдоподібності є
Знаходження оцінки максимальної правдоподібності для єдиного спостережуваного значення виглядає дещо складним. З його логарифмом працювати набагато простіше:
Щоби максимізувати логарифмічну правдоподібність, ми спершу беремо часткову похідну за :
Якщо є ряд незалежних спостережень , то спільною логарифмічною правдоподібністю буде сума окремих логарифмічних правдоподібностей, а похідною цієї суми буде сума похідних всіх окремих логарифмічних правдоподібностей:
Щоби завершити процедуру максимізування для спільної логарифмічної правдоподібності, це рівняння встановлюють в нуль, і розв'язують для :
Тут позначує оцінку максимальною правдоподібністю, а є вибірковим середнім спостережень.
Походження та інтерпретація
Історичні зауваження
Детальніші відомості з цієї теми ви можете знайти в статті [en] та Історія теорії ймовірності.
Термін англ. likelihood (правдоподібність) був у вжитку в англійській щонайменше з середньоанглійської. Його формальне застосування для позначення конкретної функції в математичній статистиці було запропоновано Рональдом Фішером у двох дослідницьких працях, опублікованих 1921 та 1922 року. Праця 1921 року запровадила те, що тепер називають «проміжком правдоподібності». Праця 1922 року запровадила термін «метод максимальної правдоподібності». Цитуючи Фішера,
1922 року я запропонував термін «правдоподібність», з огляду на той факт, що по відношенню до [параметра], вона не є ймовірністю, й не підкоряється законам імовірності, в той же час привносячи до задачі раціонального обирання серед можливих значень [параметра] відношення, подібне до того, що ймовірність привносить до задачі передбачування подій в іграх випадку... Проте, в той час як по відношенню до психологічного судження правдоподібність має певну схожість з імовірністю, ці два поняття є цілком різними... Оригінальний текст (англ.) [I]n 1922, I proposed the term ‘likelihood,’ in view of the fact that, with respect to [the parameter], it is not a probability, and does not obey the laws of probability, while at the same time it bears to the problem of rational choice among the possible values of [the parameter] a relation similar to that which probability bears to the problem of predicting events in games of chance....Whereas, however, in relation to psychological judgment, likelihood has some resemblance to probability, the two concepts are wholly distinct....” |
Поняття правдоподібності не слід плутати з імовірністю, як зазначено сером Рональдом Фішером,
Я наголошую на цьому, оскільки, незважаючи на наголос, який я завжди робив на відмінності між імовірністю та правдоподібністю, все ще існує тенденція ставитися до правдоподібності так, ніби вона є чимось на кшталт імовірності. Першим результатом відтак є те, що існує дві різні міри раціонального переконання, що відповідають різним випадкам. Знаючи сукупність, ми можемо виражати наше неповне знання або наші неповні очікування про вибірку в термінах імовірності; знаючи вибірку, ми можемо виражати наші неповні знання про сукупність у термінах правдоподібності. Оригінальний текст (англ.) I stress this because in spite of the emphasis that I have always laid upon the difference between probability and likelihood there is still a tendency to treat likelihood as though it were a sort of probability. The first result is thus that there are two different measures of rational belief appropriate to different cases. Knowing the population we can express our incomplete knowledge of, or expectation of, the sample in terms of probability; knowing the sample we can express our incomplete knowledge of the population in terms of likelihood. |
Фішерове винайдення статистичної правдоподібності було реакцією на раніший вид міркування, званий [en]. Його застосування терміну «правдоподібність» зафіксувало значення цього терміну в межах математичної статистики.
[en] (1972) заклав аксіоматичну основу для застосування логарифмічного відношення правдоподібностей як міри відносної підтри́мки (англ. support) однієї гіпотези проти іншої. Фу́нкцією підтри́мки (англ. support function) в такому разі є натуральний логарифм функції правдоподібності. Обидва терміни застосовують у філогенетиці, але їх не були прийнято в загальному трактуванні теми статистичних даних.
Інтерпретації за різних засад
Серед статистиків нема єдиної думки про те, якими повинні бути [en]. Існує чотири головні парадигми, які було запропоновано як засади: частотництво, баєсівство, правдоподібництво, та на основі ІКА. Для кожних із цих запропонованих засад інтерпретація правдоподібності є різною. Ці чотири інтерпретації описано в підрозділах нижче.
Частотницька інтерпретація
Цей розділ статті ще . (січень 2020) |
Баєсова інтерпретація
У баєсовім висновуванні, хоча й можливо говорити про правдоподібність будь-якого висловлення чи випадкової змінної за заданої іншої випадкової змінної, наприклад, про правдоподібність значення параметра чи статистичної моделі (див. відособлену правдоподібність) за заданих даних або іншого свідчення, функція правдоподібності залишається тією ж сутністю з додатковими інтерпретаціями (i) умовної густини ймовірності даних за заданого параметра (оскільки параметр тоді є випадковою змінною), та (ii) міри кількості інформації, що несуть дані про значення параметра або навіть про модель. Внаслідок введення ймовірнісної структури на просторі параметрів або сукупності моделей є можливим, щоби значення параметра або статистична модель мали велике значення правдоподібності для заданих даних, але в той же час низьку ймовірність, і навпаки. Таке часто трапляється в контексті медицини. Згідно правила Баєса, правдоподібність, коли розглядати її як умовну густину, можливо множини на густину апріорної ймовірності параметра й потім унормовувати, щоби отримувати густину апостеріорної ймовірності. Загальніше, правдоподібність невідомої величини за заданої іншої невідомої величини є пропорційною до ймовірності за заданої .
Правдоподібницька інтерпретація
Ця стаття містить , але походження окремих тверджень через брак . (січень 2020) |
У частотницькій статистиці функція правдоподібності сама по собі є статистикою, яка узагальнює окремий зразок із сукупності, й чиє обчислюване значення залежить від вибору декількох параметрів θ1... θp, де p є кількістю параметрів у якійсь вже обраній статистичній моделі. Значення правдоподібності слугує критерієм якості для вибору, зробленого для параметрів, і набір параметрів з максимальною правдоподібністю є найкращим вибором за доступних даних.
Конкретним розрахунком правдоподібності є ймовірність того, що буде призначено саме спостережуваний зразок, за припущення, що обрана модель та значення цих декількох параметрів θ дають точне наближення частотного розподілу сукупності, з якої було витягнуто цей спостережуваний зразок. Евристично має сенс, що добрим вибором параметрів є той, який видає для фактично спостережуваного зразка максимально можливу апостеріорну (лат. post-hoc) ймовірність трапляння. [en] визначає це евристичне правило кількісно, показуючи, що різниця між логарифмом правдоподібності, породженим значеннями параметрів оцінки, та логарифмом правдоподібності, породженим «істинними» (але невідомими) значеннями параметрів сукупності, має розподіл χ².
Оцінка максимальною правдоподібністю кожного незалежного зразка є окремою оцінкою «істинного» набору параметрів, що описує сукупність, з якої роблять вибірку. Послідовні оцінки від багатьох незалежних зразків гуртуватимуться разом з «істинним» набором значень параметрів сукупності, прихованим десь поміж них. Різницю між логарифмами максимальної правдоподібності та правдоподібностей суміжних наборів параметрів можна використовувати для малювання [en] на графіку, чиїми координатами є параметри θ1... θp. Ця область оточує оцінку максимальною правдоподібністю, і всі точки (набори параметрів) всередині цієї області відрізняються в логарифмічній правдоподібності щонайбільше на якесь встановлене значення. Розподіл χ², заданий [en], перетворює різниці логарифмічних правдоподібностей цієї області у «рівень довіри» до того, що «істинний» набір параметрів сукупності лежить всередині. Мистецтво обирання цієї встановленої різниці логарифмічних правдоподібностей полягає в тім, щоби робити рівень довіри прийнятно високим, в той же час тримаючи область прийнятно малою (вузька область оцінок).
В процесі спостерігання додаткових даних, замість використовувати їх для здійснення незалежних оцінок, їх можливо поєднувати з попередніми зразками в єдину об'єднану вибірку, і цю велику вибірку можливо використовувати для нової оцінки максимальною правдоподібністю. Зі збільшенням розміру цієї об'єднаної вибірки розмір області правдоподібності з таким же рівнем довіри скорочується. Врешті-решт, або розмір довірчої області стане майже єдиною точкою, або буде вибрано всю сукупність. В обох випадках, оцінений набір параметрів буде по суті таким же, як і набір параметрів сукупності.
Інтерпретація на основі ІКА
Цей розділ потребує доповнення. (січень 2020) |
У парадигмі ІКА правдоподібність інтерпретують у контексті теорії інформації.
Див. також
Зауваження
- Хоча їх і використовують часто як синоніми у неформальному контексті, у статистиці терміни «правдоподібність» та «імовірність» мають відмінні значення. Імовірність є властивістю зразка, а саме, наскільки імовірним є отримати певний зразок для заданого значення параметрів розподілу. Правдоподібність є властивістю значень параметрів. Див. Valavanis, Stefan (1959). Probability and Likelihood. Econometrics : An Introduction to Maximum Likelihood Methods. New York: McGraw-Hill. с. 24—28. OCLC 6257066. (англ.)
- Масштабним коефіцієнтом є ; див. (Логарифм § Зміна основи)
- «Холодність» є також відомою як [en], або [en]. Приклади варіювання холодності див. в [en] та функції softmax у статистичній механіці.
- Див. [en]
Примітки
- Myung, In Jae (2003). Tutorial on Maximum Likelihood Estimation. [en]. 47 (1): 90—100. doi:10.1016/S0022-2496(02)00028-7. (англ.)
- ; (1976), Time Series Analysis : Forecasting and Control, San Francisco: Holden-Day, с. 224, ISBN (англ.)
- Fisher, R. A. [en]. §1.2. (англ.)
- (1992). Likelihood. [en]. (англ.)
- Berger, James O.; Wolpert, Robert L. (1988). The Likelihood Principle. Hayward: Institute of Mathematical Statistics. с. 19. ISBN . (англ.)
- Bandyopadhyay, P. S.; Forster, M. R., ред. (2011). Philosophy of Statistics. North-Holland Publishing. (англ.)
- (1995). Probability and Measure (вид. Third). . с. 422—423. (англ.)
- Shao, Jun (2003). Mathematical Statistics (вид. 2nd). Springer. §4.4.1. (англ.)
- ; Monfort, Alain (1995). Statistics and Econometric Models. New York: Cambridge University Press. с. 161. ISBN . (англ.)
- Mäkeläinen, Timo; Schmidt, Klaus; Styan, George P. H. (1981). On the Existence and Uniqueness of the Maximum Likelihood Estimate of a Vector-Valued Parameter in Fixed-Size Samples. [en]. 9 (4): 758—767. JSTOR 2240844. (англ.)
- Mascarenhas, W. F. (2011). A Mountain Pass Lemma and its implications regarding the uniqueness of constrained minimizers. Optimization. 60 (8–9): 1121—1159. doi:10.1080/02331934.2010.527973. (англ.)
- Chanda, K. C. (1954). A Note on the Consistency and Maxima of the Roots of Likelihood Equations. [en]. 41 (1–2): 56—61. doi:10.2307/2333005. (англ.)
- Greenberg, Edward; Webster, Charles E. Jr. (1983). Advanced Econometrics: A Bridge to the Literature. New York: John Wiley & Sons. с. 24—25. ISBN . (англ.)
- Buse, A. (1982). The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note. [en]. 36 (3a): 153—157. doi:10.1080/00031305.1982.10482817. (англ.)
- (1985), Probability and Statistical Inference, Springer (§9.3). (англ.)
- Azzalini, A. (1996), Statistical Inference—Based on the likelihood, , ISBN (§1.4.2). (англ.)
- Sprott, D. A. (2000), Statistical Inference in Science, Springer (chap. 2). (англ.)
- Davison, A. C. (2008), Statistical Models, Cambridge University Press (§4.1.2). (англ.)
- Held, L.; Sabanés Bové, D. S. (2014), Applied Statistical Inference—Likelihood and Bayes, Springer (§2.1). (англ.)
- Rossi, R. J. (2018), Mathematical Statistics, , с. 267 (англ.)
- Hudson, D. J. (1971), Interval estimation from the likelihood function, [en], 33 (2): 256—262 (англ.)
- Pawitan, Yudi (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. Oxford University Press. (англ.)
- Wen Hsiang Wei. Generalized Linear Model - course notes. Taichung, Taiwan: [en]. с. Chapter 5. Процитовано 1 жовтня 2017. (англ.)
- (1985). Concentrated Likelihood Function. Advanced Econometrics. Cambridge: Harvard University Press. с. 125–127. ISBN . (англ.)
- Davidson, Russell; (1993). Concentrating the Loglikelihood Function. Estimation and Inference in Econometrics. New York: Oxford University Press. с. 267–269. ISBN . (англ.)
- Gourieroux, Christian; Monfort, Alain (1995). Concentrated Likelihood Function. Statistics and Econometric Models. New York: Cambridge University Press. с. 170—175. ISBN . (англ.)
- Pickles, Andrew (1985). An Introduction to Likelihood Analysis. Norwich: W. H. Hutchins & Sons. с. 21–24. ISBN . (англ.)
- Bolker, Benjamin M. (2008). Ecological Models and Data in R. Princeton University Press. с. 187—189. ISBN . (англ.)
- Aitkin, Murray (1982). Direct Likelihood Inference. GLIM 82: Proceedings of the International Conference on Generalised Linear Models. Springer. с. 76—86. ISBN . (англ.)
- Venzon, D. J.; Moolgavkar, S. H. (1988). A Method for Computing Profile-Likelihood-Based Confidence Intervals. [en]. Series C (Applied Statistics). 37 (1): 87—94. doi:10.2307/2347496. (англ.)
- Kalbfleisch, J. D.; Sprott, D. A. (1973). Marginal and Conditional Likelihoods. Sankhyā: The Indian Journal of Statistics. Series A. 35 (3): 311—328. JSTOR 25049882. (англ.)
- (1975). Partial likelihood. [en]. 62 (2): 269—276. doi:10.1093/biomet/62.2.269. MR 0400509. (англ.)
- Kass, Robert E.; Vos, Paul W. (1997). Geometrical Foundations of Asymptotic Inference. New York: John Wiley & Sons. с. 14. ISBN . (англ.)
- Papadopoulos, Alecos (25 вересня 2013). Why we always put log() before the joint pdf when we use MLE (Maximum likelihood Estimation)?. Stack Exchange. (англ.)
- Foutz, Robert V. (1977). On the Unique Consistent Solution to the Likelihood Equations. [en]. 72 (357): 147—148. doi:10.1080/01621459.1977.10479926. (англ.)
- Tarone, Robert E.; Gruenhage, Gary (1975). A Note on the Uniqueness of Roots of the Likelihood Equations for Vector-Valued Parameters. Journal of the American Statistical Association. 70 (352): 903—904. doi:10.1080/01621459.1975.10480321. (англ.)
- Rai, Kamta; Van Ryzin, John (1982). A Note on a Multivariate Version of Rolle's Theorem and Uniqueness of Maximum Likelihood Roots. Communications in Statistics. Theory and Methods. 11 (13): 1505—1510. doi:10.1080/03610928208828325. (англ.)
- Rao, B. Raja (1960). A formula for the curvature of the likelihood surface of a sample drawn from a distribution admitting sufficient statistics. [en]. 47 (1–2): 203—207. doi:10.1093/biomet/47.1-2.203. (англ.)
- Ward, Michael D.; Ahlquist, John S. (2018). Maximum Likelihood for Social Science : Strategies for Analysis. Cambridge University Press. с. 25—27. (англ.)
- "likelihood", [en] (2007). (англ.)
- (1999). On the history of maximum likelihood in relation to inverse probability and least squares. [en]. 14 (2): 214—222. doi:10.1214/ss/1009212248. JSTOR 2676741. (англ.)
- Fisher, R.A. (1921). On the "probable error" of a coefficient of correlation deduced from a small sample. Metron. 1: 3—32. (англ.)
- Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society A. 222 (594–604): 309—368. doi:10.1098/rsta.1922.0009. JFM 48.1280.02. JSTOR 91208. (англ.)
- Klemens, Ben (2008). Modeling with Data: Tools and Techniques for Scientific Computing. Princeton University Press. с. 329. (англ.)
- Fisher, Ronald (1930). Inverse Probability. Mathematical Proceedings of the Cambridge Philosophical Society. 26 (4): 528—535. doi:10.1017/S0305004100016297. (англ.)
- Fienberg, Stephen E (1997). Introduction to R.A. Fisher on inverse probability and likelihood. [en]. 12 (3): 161. doi:10.1214/ss/1030037905. (англ.)
- Royall, R. (1997). Statistical Evidence. . (англ.)
- I. J. Good: Probability and the Weighing of Evidence (Griffin 1950), §6.1 (англ.)
- H. Jeffreys: Theory of Probability (3rd ed., Oxford University Press 1983), §1.22 (англ.)
- E. T. Jaynes: Probability Theory: The Logic of Science (Cambridge University Press 2003), §4.1 (англ.)
- D. V. Lindley: Introduction to Probability and Statistics from a Bayesian Viewpoint. Part 1: Probability (Cambridge University Press 1980), §1.6 (англ.)
- A. Gelman, J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari, D. B. Rubin: Bayesian Data Analysis (3rd ed., Chapman & Hall/CRC 2014), §1.3 (англ.)
- Sox, H. C.; Higgins, M. C.; Owens, D. K. (2013), Medical Decision Making (вид. 2nd), Wiley, chapters 3–4,
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici fu nkciya pravdopodi bnosti angl likelihood function chasto zvana prosto pravdopodi bnistyu angl likelihood vimiryuye dopasovanist statistichnoyi modeli do vibirki danih dlya zadanih znachen nevidomih parametriv Yiyi utvoryuyut zi spilnogo rozpodilu jmovirnosti ciyeyi vibirki ale rozglyadayut ta vikoristovuyut yak funkciyu lishe vid cih parametriv vidtak rozglyadayuchi vipadkovi zminni yak zafiksovani v sposterezhuvanih znachennyah Funkciya pravdopodibnosti opisuye giperpoverhnyu chij pik yaksho vin isnuye predstavlyaye poyednannya znachen parametriv modeli yaki maksimizuyut imovirnist vityaguvannya otrimanoyi vibirki Procedura otrimannya cih argumentiv maksimizaciyi funkciyi pravdopodibnosti ye vidomoyu yak ocinyuvannya maksimalnoyu pravdopodibnistyu yake zaradi obchislyuvalnoyi zruchnosti zazvichaj zastosovuyut z vikoristannyam naturalnogo logarifma pravdopodibnosti vidomogo yak fu nkciya logarifmi chnoyi pravdopodi bnosti angl log likelihood function Krim togo forma ta krivina poverhni pravdopodibnosti nesut informaciyu pro stijkist cih ocinok cherez sho yak chastinu statistichnogo analizu chasto zdijsnyuyut pobudovu grafiku funkciyi pravdopodibnosti Variant vikoristannya pravdopodibnosti pershim zrobiv Ronald Fisher yakij mav perekonannya sho vin ye samodostatnoyu sistemoyu dlya statistichnogo modelyuvannya ta visnovuvannya Zgodom en ta en ocholili naukovu shkolu yaka vistupila za princip pravdopodibnosti postulyuyuchi sho vsya dorechna informaciya dlya visnovuvannya mistitsya u funkciyi pravdopodibnosti Ale navit i v chastotnickij ta bayesovij statistici funkciya pravdopodibnosti vidigraye fundamentalnu rol OznachennyaFunkciyu pravdopodibnosti zazvichaj oznachuyut po riznomu dlya diskretnih ta neperervnih rozpodiliv imovirnosti Zagalne oznachennya takozh ye mozhlivim yak obgovoreno nizhche Diskretnij rozpodil imovirnosti Nehaj X displaystyle X bude diskretnoyu vipadkovoyu zminnoyu z funkciyeyu masi jmovirnosti p displaystyle p zalezhnoyu vid parametra 8 displaystyle theta Todi funkciya L 8 x p 8 x P 8 X x displaystyle mathcal L theta mid x p theta x P theta X x sho rozglyadayut yak funkciyu vid 8 displaystyle theta ye funkciyeyu pravdopodibnosti dlya zadanogo en x displaystyle x vipadkovoyi zminnoyi X displaystyle X Inodi jmovirnist znachennya x displaystyle x vipadkovoyi zminnoyi X displaystyle X dlya znachennya parametra 8 displaystyle theta zapisuyut yak P X x 8 abo P X x 8 L 8 x displaystyle mathcal L theta mid x ne slid plutati z p 8 x displaystyle p theta mid x pravdopodibnist dorivnyuye jmovirnosti sposterigannya pevnogo rezultatu x displaystyle x koli spravzhnim znachennyam parametra ye 8 displaystyle theta i vidtak dorivnyuye gustini jmovirnosti nad rezultatom x displaystyle x a ne nad parametrom 8 displaystyle theta Priklad Ris 1 Funkciya pravdopodibnosti p H 2 displaystyle p text H 2 dlya jmovirnosti padinnya moneti aversom angl heads H dogori bez poperednogo znannya pro spravedlivist moneti za umovi sho mi prosposterigali HH Ris 2 Funkciya pravdopodibnosti p H 2 1 p H displaystyle p text H 2 1 p text H dlya jmovirnosti padinnya moneti aversom angl heads H dogori bez poperednogo znannya pro spravedlivist moneti za umovi sho mi prosposterigali HHT Rozglyanmo prostu statistichnu model pidkidannya moneti yedinij parametr p H displaystyle p text H sho virazhaye spravedlivist ciyeyi moneti Cej parametr ye jmovirnistyu togo sho moneta pislya pidkidannya vpade aversom angl heads H dogori p H displaystyle p text H mozhe nabuvati bud yakogo znachennya v promizhku z 0 0 po 1 0 Dlya idealno en p H 0 5 displaystyle p text H 0 5 Uyavimo pidkidannya spravedlivoyi moneti dvichi j sposterigannya nastupnih danih dva aversi za dva pidkidannya HH Yaksho vihoditi z pripushennya sho kozhne nastupne pidkidannya moneti ye n o r to jmovirnistyu sposterigannya HH ye P HH p H 0 5 0 5 2 0 25 displaystyle P text HH mid p text H 0 5 0 5 2 0 25 Otzhe za zadanih danih sposterezhen HH pravdopodibnistyu togo sho parametr modeli p H displaystyle p text H dorivnyuye 0 5 ye 0 25 Matematichno ce zapisuyut yak L p H 0 5 HH 0 25 displaystyle mathcal L p text H 0 5 mid text HH 0 25 Ce ne te zh same sho j skazati sho jmovirnistyu togo sho p H 0 5 displaystyle p text H 0 5 za zadanogo sposterezhennya HH ye 0 25 Dlya cogo mi mozhemo zastosuvati teoremu Bayesa yaka oznachaye sho aposteriorna jmovirnist ye proporcijnoyu do pravdopodibnosti pomnozhenoyi na apriornu jmovirnist Pripustimo sho cya moneta ne ye spravedlivoyu ale natomist maye p H 0 3 displaystyle p text H 0 3 Todi jmovirnistyu otrimannya dvoh aversiv ye P HH p H 0 3 0 3 2 0 09 displaystyle P text HH mid p text H 0 3 0 3 2 0 09 Otzhe L p H 0 3 HH 0 09 displaystyle mathcal L p text H 0 3 mid text HH 0 09 Zagalnishe dlya kozhnogo znachennya p H displaystyle p text H mi mozhemo obchisliti vidpovidnu pravdopodibnist Rezultati takih obchislen pokazano na Ris 1 Na Ris 1 integralom pravdopodibnosti nad promizhkom 0 1 ye 1 3 Ce visvitlyuye vazhlivij aspekt pravdopodibnostej pravdopodibnosti ne mayut integruvatisya chi pidsumovuvatisya do 1 na vidminu vid imovirnostej Neperervnij rozpodil imovirnosti Nehaj X displaystyle X bude vipadkovoyu zminnoyu sho sliduye absolyutno neperervnomu rozpodilovi jmovirnosti z funkciyeyu gustini f displaystyle f zalezhnoyu vid parametra 8 displaystyle theta Todi funkciya L 8 x f 8 x p X x 8 displaystyle mathcal L theta mid x f theta x p X x mid theta sho rozglyadayut yak funkciyu vid 8 displaystyle theta ye funkciyeyu pravdopodibnosti parametra 8 displaystyle theta dlya zadanogo en x displaystyle x zminnoyi X displaystyle X Inodi funkciyu gustini dlya znachennya x displaystyle x zminnoyi X displaystyle X dlya znachennya parametra 8 displaystyle theta zapisuyut yak f x 8 displaystyle f x mid theta L 8 x displaystyle mathcal L theta mid x ne slid plutati z p 8 x displaystyle p theta mid x pravdopodibnist dorivnyuye gustini jmovirnosti na pevnomu rezultati x displaystyle x koli spravzhnim znachennyam parametra ye 8 displaystyle theta i vidtak vona dorivnyuye gustini jmovirnosti nad rezultatom x displaystyle x a ne nad parametrom 8 displaystyle theta Zagalnij vipadok V en funkciyu gustini oznachuyut yak pohidnu Radona Nikodima rozpodilu jmovirnosti vidnosno spilnoyi dominantnoyi miri Funkciya pravdopodibnosti ye ciyeyu gustinoyu interpretovanoyu yak funkciya vid parametra mozhlivo vektornogo a ne vid mozhlivih rezultativ Ce zabezpechuye funkciyu pravdopodibnosti dlya bud yakoyi statistichnoyi modeli z usima rozpodilami chi to diskretnimi absolyutno neperervnimi sumishshyu chi chimos she Pravdopodibnosti bude mozhlivo porivnyuvati napriklad dlya ocinyuvannya parametriv lishe yaksho voni ye pohidnimi Radona Nikodima po vidnoshennyu do odniyeyi j tiyeyi zh dominantnoyi miri Navedene vishe obgovorennya pravdopodibnosti z diskretnimi jmovirnostyami ye okremim vipadkom cogo iz zastosuvannyam lichilnoyi miri yaka robit imovirnist bud yakogo odinichnogo rezultatu rivnoyu gustini jmovirnosti dlya cogo rezultatu Yaksho ne zadano zhodnoyi podiyi nemaye danih to jmovirnistyu i vidtak pravdopodibnistyu ye 1 dzherelo Bud yaka netrivialna podiya matime nizhchu pravdopodibnist Funkciya pravdopodibnosti parametrizovanoyi modeli Iz bagatoh zastosuvan mi rozglyanemo tut odne sho maye shiroku teoretichnu ta praktichnu vazhlivist Dlya zadanogo en funkcij gustini jmovirnosti abo funkcij masi jmovirnosti u vipadku diskretnih rozpodiliv x f x 8 displaystyle x mapsto f x mid theta de 8 displaystyle theta ye parametrom fu nkciyeyu pravdopodi bnosti angl likelihood function ye 8 f x 8 displaystyle theta mapsto f x mid theta sho zapisuyut yak L 8 x f x 8 displaystyle mathcal L theta mid x f x mid theta de x displaystyle x ye sposterezhuvanim rezultatom eksperimentu Inshimi slovami koli f x 8 displaystyle f x theta rozglyadayut yak funkciyu vid x displaystyle x za nezminnogo 8 displaystyle theta vona ye funkciyeyu gustini jmovirnosti a koli yiyi rozglyadayut yak funkciyu vid 8 displaystyle theta za nezminnogo x displaystyle x vona ye funkciyeyu pravdopodibnosti Ce ne ye tim zhe sho j imovirnist togo sho ci parametri ye pravilnimi za zadanoyi sposterezhuvanoyi vibirki Namagannya interpretuvati pravdopodibnist gipotezi za zadanogo sposterezhuvanogo svidchennya yak yiyi imovirnist ye poshirenoyu pomilkoyu z potencijno katastrofichnimi naslidkami Yak priklad cogo div pomilku prokurora Z geometrichnoyi tochki zoru yaksho mi rozglyadayemo f x 8 displaystyle f x theta yak funkciyu vid dvoh zminnih to simejstvo rozpodiliv imovirnosti mozhlivo rozglyadati yak simejstvo krivih paralelnih do osi x displaystyle x todi yak simejstvo funkcij pravdopodibnosti ye perpendikulyarnimi krivimi paralelnimi do osi 8 displaystyle theta Pravdopodibnosti dlya neperervnih rozpodiliv Zastosuvannya gustini jmovirnosti u viznachenni funkciyi pravdopodibnosti vishe mozhe buti poyasneno nastupnim chinom Dlya zadanih sposterezhen x j displaystyle x j pravdopodibnist dlya promizhku x j x j h displaystyle x j x j h de h gt 0 displaystyle h gt 0 ye staloyu zadayut yak L 8 x x j x j h displaystyle mathcal L theta mid x in x j x j h Zvernit uvagu sho argmax 8 L 8 x x j x j h argmax 8 1 h L 8 x x j x j h displaystyle operatorname argmax theta mathcal L theta mid x in x j x j h operatorname argmax theta frac 1 h mathcal L theta mid x in x j x j h oskilki h displaystyle h ye dodatnoyu ta staloyu Oskilki argmax 8 1 h L 8 x x j x j h argmax 8 1 h Pr x j x x j h 8 argmax 8 1 h x j x j h f x 8 d x displaystyle operatorname argmax theta frac 1 h mathcal L theta mid x in x j x j h operatorname argmax theta frac 1 h Pr x j leq x leq x j h mid theta operatorname argmax theta frac 1 h int x j x j h f x mid theta dx de f x 8 displaystyle f x mid theta ye funkciyeyu gustini jmovirnosti z cogo viplivaye sho argmax 8 L 8 x x j x j h argmax 8 1 h x j x j h f x 8 d x displaystyle operatorname argmax theta mathcal L theta mid x in x j x j h operatorname argmax theta frac 1 h int x j x j h f x mid theta dx Persha fundamentalna teorema integralnogo chislennya ta pravilo Lopitalya razom zabezpechuyut sho lim h 0 1 h x j x j h f x 8 d x lim h 0 d d h x j x j h f x 8 d x d h d h lim h 0 f x j h 8 1 f x j 8 displaystyle begin aligned amp lim h to 0 frac 1 h int x j x j h f x mid theta dx lim h to 0 frac frac d dh int x j x j h f x mid theta dx frac dh dh 4pt amp lim h to 0 frac f x j h mid theta 1 f x j mid theta end aligned Todi argmax 8 L 8 x j argmax 8 lim h 0 L 8 x x j x j h argmax 8 lim h 0 1 h x j x j h f x 8 d x argmax 8 f x j 8 displaystyle begin aligned amp operatorname argmax theta mathcal L theta mid x j operatorname argmax theta left lim h to 0 mathcal L theta mid x in x j x j h right 4pt amp operatorname argmax theta left lim h to 0 frac 1 h int x j x j h f x mid theta dx right operatorname argmax theta f x j mid theta end aligned Otzhe argmax 8 L 8 x j argmax 8 f x j 8 displaystyle operatorname argmax theta mathcal L theta mid x j operatorname argmax theta f x j mid theta i vidtak maksimizuvannya gustini jmovirnosti v x j displaystyle x j ye rivnosilnim maksimizuvannyu pravdopodibnosti konkretnogo sposterezhennya x j displaystyle x j Pravdopodibnosti dlya zmishanih neperervno diskretnih rozpodiliv Navedene vishe mozhe buti v prostij sposib rozshireno tak shobi dozvolyati rozglyad rozpodiliv sho mistyat yak diskretni tak i neperervni skladovi Pripustimo sho takij rozpodil skladayetsya z yakoyis kilkosti diskretnih mas imovirnosti p k 8 displaystyle p k theta ta z gustini f x 8 displaystyle f x theta de suma vsih p displaystyle p dodana do integralu f displaystyle f zavzhdi ye odiniceyu Za pripushennya sho mozhlivo rozriznyati sposterezhennya sho vidpovidaye odnij z cih diskretnih mas imovirnosti vid togo sho vidpovidaye skladovij gustini funkciyu pravdopodibnosti dlya sposterezhennya z neperervnoyi skladovoyi mozhlivo rozglyadati navedenim vishe chinom Dlya sposterezhennya z diskretnoyi skladovoyi funkciyeyu pravdopodibnosti dlya sposterezhennya z ciyeyi diskretnoyi skladovoyi ye prosto L 8 x p k 8 displaystyle mathcal L theta mid x p k theta de k displaystyle k ye indeksom masi diskretnoyi jmovirnosti sho vidpovidaye sposterezhennyu x displaystyle x oskilki maksimizuvannya masi jmovirnosti abo jmovirnosti v x displaystyle x ye rivnosilnim maksimizuvannyu pravdopodibnosti cogo konkretnogo sposterezhennya Toj fakt sho funkciyu pravdopodibnosti mozhe buti viznacheno v sposib sho vklyuchaye ne porivnyanni vneski gustina ta masa jmovirnosti viplivaye zi sposobu yiyi viznachennya v yakomu funkciyu pravdopodibnosti viznacheno z tochnistyu do staloyi proporcijnosti de cya stala mozhe zminyuvatisya zi sposterezhennyam x displaystyle x ale ne z parametrom 8 displaystyle theta Umovi regulyarnosti V konteksti ocinyuvannya parametriv zazvichaj vihodyat z togo sho funkciya pravdopodibnosti zadovolnyaye pevni umovi vidomi yak umovi regulyarnosti angl regularity conditions Z cih umov vihodyat u bagatoh dovedennyah sho vklyuchayut funkciyi pravdopodibnosti i yih potribno pereviryati v kozhnomu konkretnomu zastosuvanni Dlya metodu maksimalnoyi pravdopodibnosti nadzvichajno vazhlivim ye isnuvannya globalnogo maksimumu funkciyi pravdopodibnosti Zgidno drugoyi teoremi Veyershtrasa neperervna funkciya pravdopodibnosti na kompaktnomu prostori parametriv ye dostatnoyu dlya isnuvannya ocinyuvacha maksimalnoyu pravdopodibnistyu V toj chas yak pripushennya pro neperervnist zazvichaj vikonuyetsya pripushennya pro kompaktnist prostoru parametriv chasto ne vikonuyetsya oskilki mezhi spravzhnih znachen parametriv ye nevidomimi V takomu vipadku klyuchovu rol vidigraye ugnutist funkciyi pravdopodibnosti Konkretnishe yaksho funkciya pravdopodibnosti ye dvichi neperervno diferencijovnoyu na k vimirnomu prostori parametriv 8 displaystyle Theta sho vvazhayut vidkritoyu zv yazanoyu pidmnozhinoyu R k displaystyle mathbb R k to unikalnij maksimum 8 8 displaystyle hat theta in Theta isnuye yaksho H 8 2 L 8 i 8 j displaystyle mathbf H theta left frac partial 2 L partial theta i partial theta j right ye vid yemno viznachenoyu dlya kozhnogo 8 8 displaystyle theta in Theta dlya yakogo gradiyent L L 8 i displaystyle nabla L left partial L partial theta i right znikaye ta lim 8 8 L 8 0 displaystyle lim theta to partial Theta L theta 0 tobto funkciya pravdopodibnosti nablizhuyetsya do staloyi na mezhi prostoru parametriv yaka mozhe vklyuchati tochki na neskinchennosti yaksho 8 displaystyle Theta ye neobmezhenim Makelajnen ta in dovodyat cej rezultat zastosovuyuchi teoriyu Morsa neformalno zvertayuchis do vlastivosti girskogo perevalu Mashkarenyash pidtverdzhuye yihnye dovedennya zastosovuyuchi en V dovedenni slushnosti ta asimptotichnoyi normalnosti ocinyuvacha maksimalnoyu pravdopodibnistyu roblyat dodatkovi pripushennya pro gusti ni jmovirnostej yaki skladayut osnovu pevnoyi funkciyi pravdopodibnosti Ci umovi bulo vpershe vstanovleno Chandoyu Zokrema dlya majzhe vsih x displaystyle x ta dlya vsih 8 8 displaystyle theta in Theta log f 8 r 2 log f 8 r 8 s 3 log f 8 r 8 s 8 t displaystyle frac partial log f partial theta r quad frac partial 2 log f partial theta r partial theta s quad frac partial 3 log f partial theta r partial theta s partial theta t isnuyut dlya vsih r s t 1 2 k displaystyle r s t 1 2 ldots k shobi zabezpechiti isnuvannya rozkladu Tejlora Po druge dlya majzhe vsih x displaystyle x ta dlya kozhnogo 8 8 displaystyle theta in Theta musit buti f 8 r lt F r x 2 f 8 r 8 s lt F r s x 3 f 8 r 8 s 8 t lt H r s t x displaystyle left frac partial f partial theta r right lt F r x quad left frac partial 2 f partial theta r partial theta s right lt F rs x quad left frac partial 3 f partial theta r partial theta s partial theta t right lt H rst x de H displaystyle H ye takoyu sho H r s t z d z M lt displaystyle int infty infty H rst z mathrm d z leq M lt infty Cya obmezhenist pohidnih ye potribnoyu shobi umozhliviti en I nareshti peredbachayetsya sho en I 8 log f 8 r log f 8 s f d z displaystyle mathbf I theta int infty infty frac partial log f partial theta r frac partial log f partial theta s f mathrm d z ye dodatno viznachenoyu a I 8 displaystyle left mathbf I theta right ye skinchennoyu Ce zabezpechuye skinchennist dispersiyi vnesku Navedeni vishe umovi ye dostatnimi ale ne neobhidnimi Tobto model sho ne zadovolnyaye ci umovi regulyarnosti mozhe mati a mozhe j ne mati ocinyuvacha maksimalnoyu pravdopodibnistyu zgadanih vishe vlastivostej Krim togo u vipadku ne nezalezhno abo ne odnakovo rozpodilenih sposterezhen mozhe buti potribno ochikuvati dodatkovih vlastivostej Vidnoshennya pravdopodibnostej ta vidnosna pravdopodibnistVidnoshennya pravdopodibnostej Vidno shennya pravdopodi bnostej angl likelihood ratio ce vidnoshennya bud yakih dvoh vkazanih pravdopodibnostej sho chasto zapisuyut yak L 8 1 8 2 x L 8 1 x L 8 2 x displaystyle Lambda theta 1 theta 2 mid x frac mathcal L theta 1 mid x mathcal L theta 2 mid x Vidnoshennya pravdopodibnostej ye centralnim dlya pravdopodibnickoyi statistiki zakon pravdopodibnosti vstanovlyuye sho stupin do yakogo dani sho rozglyadayut yak svidchennya pidtrimuyut odin parametr proti inshogo vimiryuyetsya vidnoshennyam pravdopodibnostej V chastotnickomu visnovuvanni vidnoshennya pravdopodibnosti ye osnovoyu dlya statistichnogo kriteriyu tak zvanoyi perevirki vidnoshennyam pravdopodibnostej Zgidno en vona ye najpotuzhnishoyu perevirkoyu dlya porivnyuvannya dvoh prostih gipotez na zadanomu rivni znachushosti Chislenni inshi kriteriyi mozhlivo rozglyadati yak perevirki vidnoshennyam pravdopodibnostej abo jogo nablizhennyami Asimptotichnij rozpodil logarifmichnogo vidnoshennya pravdopodibnostej sho rozglyadayut yak statistichnij kriterij zadano en Vidnoshennya pravdopodibnostej takozh maye centralne znachennya v bayesovim visnovuvanni de vono ye vidomim yak koeficiyent Bayesa i zastosovuyetsya v pravili Bayesa Vikladene v terminah en angl odds pravilo Bayesa polyagaye v tim sho aposteriorni shansi dvoh alternativ A 1 displaystyle A 1 ta A 2 displaystyle A 2 za umovi podiyi B displaystyle B ye apriornimi shansami pomnozhenimi na vidnoshennya pravdopodibnostej U viglyadi rivnyannya O A 1 A 2 B O A 1 A 2 L A 1 A 2 B displaystyle O A 1 A 2 mid B O A 1 A 2 cdot Lambda A 1 A 2 mid B Vidnoshennya pravdopodibnosti ne vikoristovuyut v statistici na osnovi IKA napryamu Natomist vikoristovuyut vidnosnu pravdopodibnist modelej div nizhche Vidminnist vid vidnoshennya shansiv Vidnoshennya pravdopodibnostej dvoh modelej koli zadano odnu j tu zh podiyu mozhe buti protistavleno z en dvoh podij koli zadano odnu j tu zh model V terminah parametrizovanoyi funkciyi masi jmovirnosti p 8 x displaystyle p theta x vidnoshennyam pravdopodibnostej dvoh parametriv 8 1 displaystyle theta 1 ta 8 2 displaystyle theta 2 za zadanogo rezultatu x displaystyle x ye L 8 1 8 2 x p 8 1 x p 8 2 x displaystyle Lambda theta 1 theta 2 mid x p theta 1 x p theta 2 x todi yak shansami dvoh rezultativ x 1 displaystyle x 1 ta x 2 displaystyle x 2 za zadanogo znachennya parametra 8 displaystyle theta ye O x 1 x 2 8 p 8 x 1 p 8 x 2 displaystyle O x 1 x 2 mid theta p theta x 1 p theta x 2 Ce pidkreslyuye riznicyu mizh pravdopodibnostyami ta shansami v pravdopodibnostyah porivnyuyut modeli parametri trimayuchi dani nezminnimi todi yak v shansah porivnyuyut podiyi rezultati dani trimayuchi nezminnoyu model en ye vidnoshennyam dvoh umovnih shansiv podiyi za zadanoyi prisutnosti abo vidsutnosti inshoyi podiyi Prote vidnoshennya shansiv takozh mozhlivo interpretuvati yak vidnoshennya dvoh vidnoshen pravdopodibnostej yaksho rozglyadati odnu z podij yak sposterezhuvanu legshe za inshu Div diagnostichne vidnoshennya shansiv de rezultat perevirki dlya vstanovlennya diagnozu sposterigati legshe nizh nayavnist abo vidsutnist medichnogo stanu sho lezhit v jogo osnovi Funkciya vidnosnoyi pravdopodibnosti Div takozh Vidnosna pravdopodibnist Oskilki faktichne znachennya funkciyi pravdopodibnosti zalezhit vid vibirki chasto zruchno pracyuvati zi standartizovanoyu miroyu Pripustimo sho ocinkoyu maksimalnoyu pravdopodibnistyu dlya parametra 8 ye 8 displaystyle hat theta Vidnosni dostovirnosti angl plausibilities inshih znachen 8 mozhe buti znajdeno porivnyuvannyam pravdopodibnostej cih inshih znachen z pravdopodibnistyu 8 displaystyle hat theta Vidno snu pravdopodi bnist angl relative likelihood 8 oznachuyut yak R 8 L 8 x L 8 x displaystyle R theta frac mathcal L theta mid x mathcal L hat theta mid x Takim chinom vidnosna pravdopodibnist ye vidnoshennyam pravdopodibnostej obgovorenim vishe z nezminnim znamennikom L 8 displaystyle mathcal L hat theta Ce vidpovidaye unormuvannyu ciyeyi pravdopodibnosti shobi vona mala za maksimum 1 Oblast pravdopodibnosti O blast pravdopodi bnosti angl likelihood region ce mnozhina vsih znachen 8 chiyi vidnosni pravdopodibnosti ye bilshimi abo rivnimi zadanomu porogovi V terminah vidsotkiv p vu oblast pravdopodibnosti dlya 8 oznachuyut yak 8 R 8 p 100 displaystyle left theta R theta geq frac p 100 right Yaksho 8 ye yedinim dijsnoznachnim parametrom to p va oblast pravdopodibnosti zazvichaj stanovit promizhok dijsnih znachen Yaksho cya oblast dijsno stanovit promizhok to yiyi nazivayut pro mizhkom pravdopodi bnosti angl likelihood interval Promizhki pravdopodibnosti ta zagalnishe oblasti pravdopodibnosti vikoristovuyut dlya en v pravdopodibnickij statistici voni ye podibnimi do dovirchih promizhkiv u chastotnickij statistici ta jmovirnih promizhkiv u bayesovij statistici Promizhki pravdopodibnosti tlumachat bezposeredno v terminah vidnosnoyi pravdopodibnosti a ne v terminah en chastotnictvo chi aposteriornoyi jmovirnosti bayesivstvo Dlya zadanoyi modeli promizhki pravdopodibnosti mozhlivo porivnyuvati z dovirchimi promizhkami Yaksho 8 ye yedinim dijsnoznachnim parametrom to za pevnih umov 14 65 j promizhok pravdopodibnosti pravdopodibnist blizko 1 7 dlya 8 bude takim zhe yak i 95 j dovirchij promizhok jmovirnist nakrittya 19 20 U desho vidminnomu formulyuvanni pristosovanomu dlya vikoristannya logarifmichnih pravdopodibnostej div teoremu Uilksa perevirna statistika ye podvoyenoyu rizniceyu logarifmichnih pravdopodibnostej a rozpodil imovirnosti ciyeyi perevirnoyi statistiki priblizno ye rozpodilom hi kvadrat zi stupenyami vilnosti sho dorivnyuyut riznici v stupenyah vilnosti mizh cimi dvoma modelyami tomu promizhok pravdopodibnosti e 2 ye takim zhe yak i dovirchij promizhok 0 954 za pripushennya sho rizniceyu v stupenyah vilnosti ye 1 Pravdopodibnosti sho usuvayut zavadni parametriV bagatoh vipadkah pravdopodibnist ye funkciyeyu bilsh nizh odnogo parametra ale interes zoseredzhuyetsya na ocinyuvanni lishe odnogo abo shonajbilshe dekilkoh z nih z rozglyadom inshih yak en Bulo rozrobleno dekilka alternativnih pidhodiv dlya usuvannya takih zavadnih parametriv takim chinom shobi funkciyu pravdopodibnosti moglo buti zapisano yak funkciyu lishe parametra abo parametriv sho stanovlyat interes golovnimi pidhodami ye profilna angl profile umovna angl conditional ta vidosoblena angl marginal pravdopodibnosti Ci pidhodi ye takozh korisnimi koli potribno zvuzhuvati poverhni pravdopodibnosti visokoyi vimirnosti do odnogo chi dvoh parametriv sho stanovlyat interes shobi umozhliviti pobudovu grafiku Profilna pravdopodibnist Mozhlivo znizhuvati rozmirnosti zoseredzhuyuchi funkciyu pravdopodibnosti na pidmnozhini parametriv shlyahom virazhannya zavadnih parametriv yak funkcij vid parametriv sho stanovlyat interes i zamini yih u funkciyi pravdopodibnosti Zagalom dlya funkciyi pravdopodibnosti sho zalezhit vid vektoru parametriv 8 displaystyle mathbf theta yakij mozhlivo rozbiti na 8 8 1 8 2 displaystyle mathbf theta left mathbf theta 1 mathbf theta 2 right i de vidpovidnist 8 2 8 2 8 1 displaystyle mathbf hat theta 2 mathbf hat theta 2 left mathbf theta 1 right mozhlivo viznachiti yavno zoseredzhuvannya znizhuye obchislyuvalne navantazhennya pervinnoyi zadachi maksimizaciyi Napriklad v linijnij regresiyi z normalno rozpodilenimi pohibkami y X b u displaystyle mathbf y mathbf X beta u vektor koeficiyentiv mozhe buti rozbito na b b 1 b 2 displaystyle beta left beta 1 beta 2 right a en vidpovidno na X X 1 X 2 displaystyle mathbf X left mathbf X 1 mathbf X 2 right Maksimizuvannya vidnosno b 2 displaystyle beta 2 vidaye funkciyu optimalnogo znachennya b 2 b 1 X 2 T X 2 1 X 2 T y X 1 b 1 displaystyle beta 2 beta 1 left mathbf X 2 mathsf T mathbf X 2 right 1 mathbf X 2 mathsf T left mathbf y mathbf X 1 beta 1 right Iz zastosuvannyam cogo rezultatu ocinyuvach maksimalnoyu pravdopodibnistyu dlya b 1 displaystyle beta 1 mozhe buti vivedeno yak b 1 X 1 T I P 2 X 1 1 X 1 T I P 2 y displaystyle hat beta 1 left mathbf X 1 mathsf T left mathbf I mathbf P 2 right mathbf X 1 right 1 mathbf X 1 mathsf T left mathbf I mathbf P 2 right mathbf y de P 2 X 2 X 2 T X 2 1 X 2 T displaystyle mathbf P 2 mathbf X 2 left mathbf X 2 mathsf T mathbf X 2 right 1 mathbf X 2 mathsf T ye en X 2 displaystyle mathbf X 2 Cej rezultat ye vidomim yak en Oskilki grafichno procedura zoseredzhuvannya ye rivnoznachnoyu narizannyu poverhni pravdopodibnosti po hrebtu znachen zavadnogo parametra b 2 displaystyle beta 2 yake maksimizuye funkciyu pravdopodibnosti stvoryuyuchi izometrichnij en funkciyi pravdopodibnosti dlya zadanogo b 1 displaystyle beta 1 rezultat ciyeyi proceduri ye takozh vidomim yak pro filna pravdopodi bnist angl profile likelihood Na dodachu do grafichnogo zobrazhuvannya profilnu pravdopodibnist takozh mozhlivo vikoristovuvati dlya obchislyuvannya dovirchih promizhkiv yaki chasto mayut krashi vlastivosti na malih vibirkah nizh osnovani na asimptotichnih standartnih pohibkah obchislyuvanih iz povnoyi pravdopodibnosti Umovna pravdopodibnist Inodi dlya zavadnih parametriv mozhlivo znajti dostatnyu statistiku i obumovlyuvannya ciyeyu statistikoyu daye v rezultati pravdopodibnist sho ne zalezhit vid zavadnih parametriv Odin iz prikladiv traplyayetsya v tablicyah 2 2 de obumovlyuvannya usima chotirma vidosoblenimi pidsumkami vede do umovnoyi pravdopodibnosti na osnovi necentralnogo gipergeometrichnogo rozpodilu Cej vid obumovlyuvannya ye takozh osnovoyu en Vidosoblena pravdopodibnist Dokladnishe Vidosoblena pravdopodibnist Inodi mi mozhemo usuvati zavadni parametri rozglyadayuchi pravdopodibnist na osnovi lishe chastini informaciyi z danih napriklad zastosuvannyam naboru poryadkiv zamist chislovih znachen Inshij priklad traplyayetsya v linijnih zmishanih modelyah de rozglyad pravdopodibnosti lishe dlya zalishkiv pislya dopasovuvannya fiksovanih vpliviv vede do ocinyuvannya en skladovih vidhilennya Chastkova pravdopodibnist Chastkova pravdopodibnist angl partial likelihood ce take pristosuvannya povnoyi pravdopodibnosti sho v nomu ye lishe chastina parametriv parametri sho stanovlyat interes Vona ye klyuchovoyu skladovoyu en z vikoristannyam obmezhennya na funkciyu rizikiv pravdopodibnist ne mistit figuri riziku v chasi Dobutok pravdopodibnostejPravdopodibnist za zadanih dvoh abo bilshe nezalezhnih podiyah ye dobutkom pravdopodibnostej kozhnoyi z cih okremih podij L A X 1 X 2 L A X 1 L A X 2 displaystyle Lambda A mid X 1 land X 2 Lambda A mid X 1 cdot Lambda A mid X 2 Ce viplivaye z oznachennya nezalezhnosti v teoriyi jmovirnostej imovirnistyu traplyannya dvoh nezalezhnih podij za zadanoyi modeli ye dobutok cih imovirnostej Ce ye osoblivo vazhlivim koli podiyi pohodyat vid nezalezhnih odnakovo rozpodilenih vipadkovih zminnih takih yak nezalezhni sposterezhennya abo en V takij situaciyi funkciya pravdopodibnosti rozkladayetsya na dobutok okremih funkcij pravdopodibnostej Porozhnij dobutok maye znachennya 1 yake vidpovidaye pravdopodibnosti za vidsutnosti podiyi sho stanovit 1 pered bud yakimi danimi pravdopodibnistyu zavzhdi ye 1 Ce ye podibnim do rivnomirnogo apriornogo v bayesovij statistici ale v pravdopodibnickij statistici ce ne ye nekorektnim apriornim oskilki pravdopodibnosti ne integruyutsya Logarifmichna pravdopodibnistDetalnishi vidomosti z ciyeyi temi vi mozhete znajti v statti Logarifmichna jmovirnist Fu nkciya logarifmi chnoyi pravdopodi bnosti angl log likelihood function ce logarifmichne peretvorennya funkciyi pravdopodibnosti yake chasto poznachuyut malenkoyu l abo ℓ displaystyle ell na protivagu do velikoyi L abo L displaystyle mathcal L dlya samoyi pravdopodibnosti Oskilki ugnutist vidigraye v maksimizaciyi klyuchovu rol a bilshist poshirenih rozpodiliv imovirnosti zokrema en ye lishe logarifmichno ugnutimi zazvichaj nabagato zruchnishe pracyuvati z funkciyami logarifmichnih pravdopodibnostej Takozh logarifmichna pravdopodibnist ye osoblivo zruchnoyu v ocinyuvanni maksimalnoyu pravdopodibnistyu Oskilki logarifmi ye strogo vishidnimi funkciyami maksimizuvannya pravdopodibnosti ye rivnoznachnim maksimizuvannyu logarifmichnoyi pravdopodibnosti Za umovi nezalezhnosti kozhnoyi z podij zagalna logarifmichna pravdopodibnist peretinu dorivnyuye sumi logarifmichnih pravdopodibnostej okremih podij Ce ye analogichnim tomu faktovi sho zagalna logarifmichna jmovirnist ye sumoyu logarifmichnih imovirnostej cih okremih podij Na dodachu do matematichnoyi zruchnosti yaku ce daye proces dodavannya logarifmichnih pravdopodibnostej maye intuyitivnu interpretaciyu yaku chasto virazhayut yak pidtrimku danimi Koli parametri ocinyuyut zastosovuyuchi logarifmichnu pravdopodibnist dlya ocinyuvannya maksimalnoyu pravdopodibnistyu kozhnu tochku danih vikoristovuyut dodavannyam do pidsumkovoyi logarifmichnoyi pravdopodibnosti Oskilki ci dani mozhlivo rozglyadati yak svidchennya sho pidtrimuyut ocinyuvani parametri cej proces mozhlivo interpretuvati yak pidtrimka vid nezalezhnih svidchen dodayetsya a logarifmichna pravdopodibnist ye vagoyu svidchennya Yaksho interpretuvati vid yemnu logarifmichnu pravdopodibnist yak vlasnu informaciyu abo nespodivanist to pidtrimka logarifmichna pravdopodibnist modeli za zadanoyi podiyi ye vid yemnoyu nespodivanistyu ciyeyi podiyi za zadanoyi modeli model pidtrimuvano podiyeyu v tij miri v yakij cya podiya ne ye nespodivanoyu za zadanoyi modeli Vibir osnovi b dlya logarifma vidpovidaye viborovi masshtabu Zazvichaj vikoristovuyut naturalnij logarifm j osnovu zalishayut nezminnoyu ale inodi osnovu roblyat zminnoyu v razi chogo zapisuyuchi osnovu yak b e b displaystyle b e beta koeficiyent b mozhlivo interpretuvati yak en Logarifm vidnoshennya pravdopodibnostej dorivnyuye riznici logarifmichnih pravdopodibnostej log L A L B log L A log L B ℓ A ℓ B displaystyle log frac L A L B log L A log L B ell A ell B Tochno yak i pravdopodibnist sho za vidsutnosti podiyi ye 1 logarifmichnoyu pravdopodibnistyu za vidsutnosti podiyi ye 0 sho vidpovidaye znachennyu nulovoyi sumi bez bodaj yakihos danih ne isnuye pidtrimki dlya zhodnoyi modeli Rivnyannya pravdopodibnosti Yaksho funkciya logarifmichnoyi pravdopodibnosti ye gladkoyu to yiyi gradiyent vidnosno parametra vidomij yak vnesok i zapisuvanij yak s n 8 8 ℓ n 8 displaystyle s n theta equiv nabla theta ell n theta isnuye j dozvolyaye zastosovuvati diferencialne chislennya Bazovim sposobom maksimizuvati diferencijovnu funkciyu ye znahoditi stacionarni tochki taki de yiyi pohidna ye nulovoyu Oskilki pohidna sumi ye prosto sumoyu pohidnih a pohidna dobutku vimagaye pravila dobutku prostishe obchislyuvati stacionarni tochki logarifmichnoyi pravdopodibnosti okremih podij nizh pravdopodibnosti okremih podij Rivnyannya sho viznachaye stacionarna tochka funkciyi vnesku sluguyut en dlya ocinyuvacha maksimalnoyu pravdopodibnistyu s n 8 0 displaystyle s n theta mathbf 0 V comu sensi ocinyuvach maksimalnoyu pravdopodibnistyu neyavno viznachayetsya znachennyam v 0 displaystyle mathbf 0 obernenoyi funkciyi s n 1 E d 8 displaystyle s n 1 mathbb E d to Theta de E d displaystyle mathbb E d ye d vimirnim evklidovim prostorom Shlyahom zastosuvannya teoremi pro obernenu funkciyu mozhlivo pokazati sho s n 1 displaystyle s n 1 ye en u en navkolo 0 displaystyle mathbf 0 z imovirnistyu sho pryamuye do odinici a 8 n s n 1 0 displaystyle hat theta n s n 1 mathbf 0 ye slushnoyu ocinkoyu 8 displaystyle theta Yak naslidok isnuye taka poslidovnist 8 n displaystyle left hat theta n right sho s n 8 n 0 displaystyle s n hat theta n mathbf 0 asimptotichno majzhe napevno i 8 n p 8 0 displaystyle hat theta n xrightarrow text p theta 0 Analogichnij rezultat mozhlivo vstanoviti zastosuvavshi teoremu Rollya Druga pohidna obchislyuvana v 8 displaystyle hat theta vidoma yak informaciya za Fisherom viznachaye krivinu poverhni pravdopodibnosti i vidtak pokazuyuchi en ocinki Eksponencijni simejstva Detalnishi vidomosti z ciyeyi temi vi mozhete znajti v statti en Logarifmichna pravdopodibnist ye takozh nadzvichajno korisnoyu dlya en rozpodiliv do yakih mozhut vhoditi bagato poshirenih en Funkciya rozpodilu jmovirnosti j vidtak funkciya pravdopodibnosti dlya eksponencijnih simejstv mistit dobutki mnozhnikiv sho mistyat pidnesennya do stepenya Logarifm takoyi funkciyi ye sumoyu dobutkiv znov taki prostishoyu dlya diferenciyuvannya za pervinnu funkciyu Eksponencijne simejstvo ce take chiya funkciya gustini jmovirnosti maye viglyad dlya deyakih funkcij iz poznachennyam cherez displaystyle langle rangle vnutrishnogo dobutku p x 8 h x exp h 8 T x A 8 displaystyle p x mid boldsymbol theta h x exp Big langle boldsymbol eta boldsymbol theta mathbf T x rangle A boldsymbol theta Big Kozhen iz cih chleniv maye interpretaciyu ale prostij perehid vid imovirnosti do pravdopodibnosti ta vzyattya logarifmiv daye sumu ℓ 8 x h 8 T x A 8 log h x displaystyle ell boldsymbol theta mid x langle boldsymbol eta boldsymbol theta mathbf T x rangle A boldsymbol theta log h x h 8 displaystyle boldsymbol eta boldsymbol theta ta h x displaystyle h x vidpovidayut zmini koordinat tozh u cih koordinatah logarifmichna pravdopodibnist eksponencijnogo simejstva zadayetsya prostoyu formuloyu ℓ h x h T x A h displaystyle ell boldsymbol eta mid x langle boldsymbol eta mathbf T x rangle A boldsymbol eta Slovami logarifmichna pravdopodibnist eksponencijnogo simejstva ye vnutrishnim dobutkom prirodnogo parametra h displaystyle boldsymbol eta ta dostatnoyi statistiki T x displaystyle mathbf T x minus koeficiyent unormuvannya en A h displaystyle A boldsymbol eta Takim chinom napriklad ocinku maksimalnoyu pravdopodibnistyu mozhe buti obchisleno vzyattyam pohidnih dostatnoyi statistiki T ta logarifmichnoyi statistichnoyi sumi A Priklad gamma rozpodil Gamma rozpodil ce eksponencijne simejstvo z dvoma parametrami a displaystyle alpha ta b displaystyle beta Jogo funkciyeyu pravdopodibnosti ye L a b x b a G a x a 1 e b x displaystyle mathcal L alpha beta mid x frac beta alpha Gamma alpha x alpha 1 e beta x Znahodzhennya ocinki maksimalnoyi pravdopodibnosti b displaystyle beta dlya yedinogo sposterezhuvanogo znachennya x displaystyle x viglyadaye desho skladnim Z jogo logarifmom pracyuvati nabagato prostishe log L a b x a log b log G a a 1 log x b x displaystyle log mathcal L alpha beta mid x alpha log beta log Gamma alpha alpha 1 log x beta x Shobi maksimizuvati logarifmichnu pravdopodibnist mi spershu beremo chastkovu pohidnu za b displaystyle beta log L a b x b a b x displaystyle frac partial log mathcal L alpha beta mid x partial beta frac alpha beta x Yaksho ye ryad nezalezhnih sposterezhen x 1 x n displaystyle x 1 ldots x n to spilnoyu logarifmichnoyu pravdopodibnistyu bude suma okremih logarifmichnih pravdopodibnostej a pohidnoyu ciyeyi sumi bude suma pohidnih vsih okremih logarifmichnih pravdopodibnostej log L a b x 1 x n b log L a b x 1 b log L a b x n b n a b i 1 n x i displaystyle begin aligned amp frac partial log mathcal L alpha beta mid x 1 ldots x n partial beta amp frac partial log mathcal L alpha beta mid x 1 partial beta cdots frac partial log mathcal L alpha beta mid x n partial beta frac n alpha beta sum i 1 n x i end aligned Shobi zavershiti proceduru maksimizuvannya dlya spilnoyi logarifmichnoyi pravdopodibnosti ce rivnyannya vstanovlyuyut v nul i rozv yazuyut dlya b displaystyle beta b a x displaystyle widehat beta frac alpha bar x Tut b displaystyle widehat beta poznachuye ocinku maksimalnoyu pravdopodibnistyu a x 1 n i 1 n x i displaystyle textstyle bar x frac 1 n sum i 1 n x i ye vibirkovim serednim sposterezhen Pohodzhennya ta interpretaciyaIstorichni zauvazhennya Detalnishi vidomosti z ciyeyi temi vi mozhete znajti v statti en ta Istoriya teoriyi jmovirnosti Termin angl likelihood pravdopodibnist buv u vzhitku v anglijskij shonajmenshe z serednoanglijskoyi Jogo formalne zastosuvannya dlya poznachennya konkretnoyi funkciyi v matematichnij statistici bulo zaproponovano Ronaldom Fisherom u dvoh doslidnickih pracyah opublikovanih 1921 ta 1922 roku Pracya 1921 roku zaprovadila te sho teper nazivayut promizhkom pravdopodibnosti Pracya 1922 roku zaprovadila termin metod maksimalnoyi pravdopodibnosti Cituyuchi Fishera 1922 roku ya zaproponuvav termin pravdopodibnist z oglyadu na toj fakt sho po vidnoshennyu do parametra vona ne ye jmovirnistyu j ne pidkoryayetsya zakonam imovirnosti v toj zhe chas privnosyachi do zadachi racionalnogo obirannya sered mozhlivih znachen parametra vidnoshennya podibne do togo sho jmovirnist privnosit do zadachi peredbachuvannya podij v igrah vipadku Prote v toj chas yak po vidnoshennyu do psihologichnogo sudzhennya pravdopodibnist maye pevnu shozhist z imovirnistyu ci dva ponyattya ye cilkom riznimi Originalnij tekst angl I n 1922 I proposed the term likelihood in view of the fact that with respect to the parameter it is not a probability and does not obey the laws of probability while at the same time it bears to the problem of rational choice among the possible values of the parameter a relation similar to that which probability bears to the problem of predicting events in games of chance Whereas however in relation to psychological judgment likelihood has some resemblance to probability the two concepts are wholly distinct Ponyattya pravdopodibnosti ne slid plutati z imovirnistyu yak zaznacheno serom Ronaldom Fisherom Ya nagoloshuyu na comu oskilki nezvazhayuchi na nagolos yakij ya zavzhdi robiv na vidminnosti mizh imovirnistyu ta pravdopodibnistyu vse she isnuye tendenciya stavitisya do pravdopodibnosti tak nibi vona ye chimos na kshtalt imovirnosti Pershim rezultatom vidtak ye te sho isnuye dvi rizni miri racionalnogo perekonannya sho vidpovidayut riznim vipadkam Znayuchi sukupnist mi mozhemo virazhati nashe nepovne znannya abo nashi nepovni ochikuvannya pro vibirku v terminah imovirnosti znayuchi vibirku mi mozhemo virazhati nashi nepovni znannya pro sukupnist u terminah pravdopodibnosti Originalnij tekst angl I stress this because in spite of the emphasis that I have always laid upon the difference between probability and likelihood there is still a tendency to treat likelihood as though it were a sort of probability The first result is thus that there are two different measures of rational belief appropriate to different cases Knowing the population we can express our incomplete knowledge of or expectation of the sample in terms of probability knowing the sample we can express our incomplete knowledge of the population in terms of likelihood Fisherove vinajdennya statistichnoyi pravdopodibnosti bulo reakciyeyu na ranishij vid mirkuvannya zvanij en Jogo zastosuvannya terminu pravdopodibnist zafiksuvalo znachennya cogo terminu v mezhah matematichnoyi statistiki en 1972 zaklav aksiomatichnu osnovu dlya zastosuvannya logarifmichnogo vidnoshennya pravdopodibnostej yak miri vidnosnoyi pidtri mki angl support odniyeyi gipotezi proti inshoyi Fu nkciyeyu pidtri mki angl support function v takomu razi ye naturalnij logarifm funkciyi pravdopodibnosti Obidva termini zastosovuyut u filogenetici ale yih ne buli prijnyato v zagalnomu traktuvanni temi statistichnih danih Interpretaciyi za riznih zasad Sered statistikiv nema yedinoyi dumki pro te yakimi povinni buti en Isnuye chotiri golovni paradigmi yaki bulo zaproponovano yak zasadi chastotnictvo bayesivstvo pravdopodibnictvo ta na osnovi IKA Dlya kozhnih iz cih zaproponovanih zasad interpretaciya pravdopodibnosti ye riznoyu Ci chotiri interpretaciyi opisano v pidrozdilah nizhche Chastotnicka interpretaciya Cej rozdil statti she ne napisano Vi mozhete dopomogti proyektu napisavshi jogo sichen 2020 Bayesova interpretaciya U bayesovim visnovuvanni hocha j mozhlivo govoriti pro pravdopodibnist bud yakogo vislovlennya chi vipadkovoyi zminnoyi za zadanoyi inshoyi vipadkovoyi zminnoyi napriklad pro pravdopodibnist znachennya parametra chi statistichnoyi modeli div vidosoblenu pravdopodibnist za zadanih danih abo inshogo svidchennya funkciya pravdopodibnosti zalishayetsya tiyeyu zh sutnistyu z dodatkovimi interpretaciyami i umovnoyi gustini jmovirnosti danih za zadanogo parametra oskilki parametr todi ye vipadkovoyu zminnoyu ta ii miri kilkosti informaciyi sho nesut dani pro znachennya parametra abo navit pro model Vnaslidok vvedennya jmovirnisnoyi strukturi na prostori parametriv abo sukupnosti modelej ye mozhlivim shobi znachennya parametra abo statistichna model mali velike znachennya pravdopodibnosti dlya zadanih danih ale v toj zhe chas nizku jmovirnist i navpaki Take chasto traplyayetsya v konteksti medicini Zgidno pravila Bayesa pravdopodibnist koli rozglyadati yiyi yak umovnu gustinu mozhlivo mnozhini na gustinu apriornoyi jmovirnosti parametra j potim unormovuvati shobi otrimuvati gustinu aposteriornoyi jmovirnosti Zagalnishe pravdopodibnist nevidomoyi velichini X displaystyle X za zadanoyi inshoyi nevidomoyi velichini Y displaystyle Y ye proporcijnoyu do jmovirnosti Y displaystyle Y za zadanoyi X displaystyle X Pravdopodibnicka interpretaciya Cya stattya mistit perelik posilan ale pohodzhennya okremih tverdzhen zalishayetsya nezrozumilim cherez brak vnutrishnotekstovih dzherel vinosok Bud laska dopomozhit polipshiti cyu stattyu peretvorivshi dzherela z pereliku posilan na dzherela vinoski u samomu teksti statti Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki sichen 2020 U chastotnickij statistici funkciya pravdopodibnosti sama po sobi ye statistikoyu yaka uzagalnyuye okremij zrazok iz sukupnosti j chiye obchislyuvane znachennya zalezhit vid viboru dekilkoh parametriv 81 8p de p ye kilkistyu parametriv u yakijs vzhe obranij statistichnij modeli Znachennya pravdopodibnosti sluguye kriteriyem yakosti dlya viboru zroblenogo dlya parametriv i nabir parametriv z maksimalnoyu pravdopodibnistyu ye najkrashim viborom za dostupnih danih Konkretnim rozrahunkom pravdopodibnosti ye jmovirnist togo sho bude priznacheno same sposterezhuvanij zrazok za pripushennya sho obrana model ta znachennya cih dekilkoh parametriv 8 dayut tochne nablizhennya chastotnogo rozpodilu sukupnosti z yakoyi bulo vityagnuto cej sposterezhuvanij zrazok Evristichno maye sens sho dobrim viborom parametriv ye toj yakij vidaye dlya faktichno sposterezhuvanogo zrazka maksimalno mozhlivu aposteriornu lat post hoc jmovirnist traplyannya en viznachaye ce evristichne pravilo kilkisno pokazuyuchi sho riznicya mizh logarifmom pravdopodibnosti porodzhenim znachennyami parametriv ocinki ta logarifmom pravdopodibnosti porodzhenim istinnimi ale nevidomimi znachennyami parametriv sukupnosti maye rozpodil x Ocinka maksimalnoyu pravdopodibnistyu kozhnogo nezalezhnogo zrazka ye okremoyu ocinkoyu istinnogo naboru parametriv sho opisuye sukupnist z yakoyi roblyat vibirku Poslidovni ocinki vid bagatoh nezalezhnih zrazkiv gurtuvatimutsya razom z istinnim naborom znachen parametriv sukupnosti prihovanim des pomizh nih Riznicyu mizh logarifmami maksimalnoyi pravdopodibnosti ta pravdopodibnostej sumizhnih naboriv parametriv mozhna vikoristovuvati dlya malyuvannya en na grafiku chiyimi koordinatami ye parametri 81 8p Cya oblast otochuye ocinku maksimalnoyu pravdopodibnistyu i vsi tochki nabori parametriv vseredini ciyeyi oblasti vidriznyayutsya v logarifmichnij pravdopodibnosti shonajbilshe na yakes vstanovlene znachennya Rozpodil x zadanij en peretvoryuye riznici logarifmichnih pravdopodibnostej ciyeyi oblasti u riven doviri do togo sho istinnij nabir parametriv sukupnosti lezhit vseredini Mistectvo obirannya ciyeyi vstanovlenoyi riznici logarifmichnih pravdopodibnostej polyagaye v tim shobi robiti riven doviri prijnyatno visokim v toj zhe chas trimayuchi oblast prijnyatno maloyu vuzka oblast ocinok V procesi sposterigannya dodatkovih danih zamist vikoristovuvati yih dlya zdijsnennya nezalezhnih ocinok yih mozhlivo poyednuvati z poperednimi zrazkami v yedinu ob yednanu vibirku i cyu veliku vibirku mozhlivo vikoristovuvati dlya novoyi ocinki maksimalnoyu pravdopodibnistyu Zi zbilshennyam rozmiru ciyeyi ob yednanoyi vibirki rozmir oblasti pravdopodibnosti z takim zhe rivnem doviri skorochuyetsya Vreshti resht abo rozmir dovirchoyi oblasti stane majzhe yedinoyu tochkoyu abo bude vibrano vsyu sukupnist V oboh vipadkah ocinenij nabir parametriv bude po suti takim zhe yak i nabir parametriv sukupnosti Interpretaciya na osnovi IKA Cej rozdil potrebuye dopovnennya sichen 2020 U paradigmi IKA pravdopodibnist interpretuyut u konteksti teoriyi informaciyi Div takozhKoeficiyent Bayesa Umovna entropiya Umovna jmovirnist en Princip pravdopodibnosti Perevirka vidnoshennyam pravdopodibnostej Pravdopodibnicka statistika Maksimalna pravdopodibnist en en Funkciya vneskuZauvazhennyaHocha yih i vikoristovuyut chasto yak sinonimi u neformalnomu konteksti u statistici termini pravdopodibnist ta imovirnist mayut vidminni znachennya Imovirnist ye vlastivistyu zrazka a same naskilki imovirnim ye otrimati pevnij zrazok dlya zadanogo znachennya parametriv rozpodilu Pravdopodibnist ye vlastivistyu znachen parametriv Div Valavanis Stefan 1959 Probability and Likelihood Econometrics An Introduction to Maximum Likelihood Methods New York McGraw Hill s 24 28 OCLC 6257066 angl Masshtabnim koeficiyentom ye log a b displaystyle log a b div Logarifm Zmina osnovi Holodnist ye takozh vidomoyu yak en abo en Prikladi variyuvannya holodnosti div v en ta funkciyi softmax u statistichnij mehanici Div en PrimitkiMyung In Jae 2003 Tutorial on Maximum Likelihood Estimation en 47 1 90 100 doi 10 1016 S0022 2496 02 00028 7 angl 1976 Time Series Analysis Forecasting and Control San Francisco Holden Day s 224 ISBN 0 8162 1104 3 angl Fisher R A en 1 2 angl 1992 Likelihood en angl Berger James O Wolpert Robert L 1988 The Likelihood Principle Hayward Institute of Mathematical Statistics s 19 ISBN 0 940600 13 7 angl Bandyopadhyay P S Forster M R red 2011 Philosophy of Statistics North Holland Publishing angl 1995 Probability and Measure vid Third John Wiley amp Sons s 422 423 angl Shao Jun 2003 Mathematical Statistics vid 2nd Springer 4 4 1 angl Monfort Alain 1995 Statistics and Econometric Models New York Cambridge University Press s 161 ISBN 0 521 40551 3 angl Makelainen Timo Schmidt Klaus Styan George P H 1981 On the Existence and Uniqueness of the Maximum Likelihood Estimate of a Vector Valued Parameter in Fixed Size Samples en 9 4 758 767 JSTOR 2240844 angl Mascarenhas W F 2011 A Mountain Pass Lemma and its implications regarding the uniqueness of constrained minimizers Optimization 60 8 9 1121 1159 doi 10 1080 02331934 2010 527973 angl Chanda K C 1954 A Note on the Consistency and Maxima of the Roots of Likelihood Equations en 41 1 2 56 61 doi 10 2307 2333005 angl Greenberg Edward Webster Charles E Jr 1983 Advanced Econometrics A Bridge to the Literature New York John Wiley amp Sons s 24 25 ISBN 0 471 09077 8 angl Buse A 1982 The Likelihood Ratio Wald and Lagrange Multiplier Tests An Expository Note en 36 3a 153 157 doi 10 1080 00031305 1982 10482817 angl 1985 Probability and Statistical Inference Springer 9 3 angl Azzalini A 1996 Statistical Inference Based on the likelihood Chapman amp Hall ISBN 9780412606502 1 4 2 angl Sprott D A 2000 Statistical Inference in Science Springer chap 2 angl Davison A C 2008 Statistical Models Cambridge University Press 4 1 2 angl Held L Sabanes Bove D S 2014 Applied Statistical Inference Likelihood and Bayes Springer 2 1 angl Rossi R J 2018 Mathematical Statistics Wiley s 267 angl Hudson D J 1971 Interval estimation from the likelihood function en 33 2 256 262 angl Pawitan Yudi 2001 In All Likelihood Statistical Modelling and Inference Using Likelihood Oxford University Press angl Wen Hsiang Wei Generalized Linear Model course notes Taichung Taiwan en s Chapter 5 Procitovano 1 zhovtnya 2017 angl 1985 Concentrated Likelihood Function Advanced Econometrics Cambridge Harvard University Press s 125 127 ISBN 978 0 674 00560 0 angl Davidson Russell 1993 Concentrating the Loglikelihood Function Estimation and Inference in Econometrics New York Oxford University Press s 267 269 ISBN 978 0 19 506011 9 angl Gourieroux Christian Monfort Alain 1995 Concentrated Likelihood Function Statistics and Econometric Models New York Cambridge University Press s 170 175 ISBN 978 0 521 40551 5 angl Pickles Andrew 1985 An Introduction to Likelihood Analysis Norwich W H Hutchins amp Sons s 21 24 ISBN 0 86094 190 6 angl Bolker Benjamin M 2008 Ecological Models and Data in R Princeton University Press s 187 189 ISBN 978 0 691 12522 0 angl Aitkin Murray 1982 Direct Likelihood Inference GLIM 82 Proceedings of the International Conference on Generalised Linear Models Springer s 76 86 ISBN 0 387 90777 7 angl Venzon D J Moolgavkar S H 1988 A Method for Computing Profile Likelihood Based Confidence Intervals en Series C Applied Statistics 37 1 87 94 doi 10 2307 2347496 angl Kalbfleisch J D Sprott D A 1973 Marginal and Conditional Likelihoods Sankhya The Indian Journal of Statistics Series A 35 3 311 328 JSTOR 25049882 angl 1975 Partial likelihood en 62 2 269 276 doi 10 1093 biomet 62 2 269 MR 0400509 angl Kass Robert E Vos Paul W 1997 Geometrical Foundations of Asymptotic Inference New York John Wiley amp Sons s 14 ISBN 0 471 82668 5 angl Papadopoulos Alecos 25 veresnya 2013 Why we always put log before the joint pdf when we use MLE Maximum likelihood Estimation Stack Exchange angl Foutz Robert V 1977 On the Unique Consistent Solution to the Likelihood Equations en 72 357 147 148 doi 10 1080 01621459 1977 10479926 angl Tarone Robert E Gruenhage Gary 1975 A Note on the Uniqueness of Roots of the Likelihood Equations for Vector Valued Parameters Journal of the American Statistical Association 70 352 903 904 doi 10 1080 01621459 1975 10480321 angl Rai Kamta Van Ryzin John 1982 A Note on a Multivariate Version of Rolle s Theorem and Uniqueness of Maximum Likelihood Roots Communications in Statistics Theory and Methods 11 13 1505 1510 doi 10 1080 03610928208828325 angl Rao B Raja 1960 A formula for the curvature of the likelihood surface of a sample drawn from a distribution admitting sufficient statistics en 47 1 2 203 207 doi 10 1093 biomet 47 1 2 203 angl Ward Michael D Ahlquist John S 2018 Maximum Likelihood for Social Science Strategies for Analysis Cambridge University Press s 25 27 angl likelihood en 2007 angl 1999 On the history of maximum likelihood in relation to inverse probability and least squares en 14 2 214 222 doi 10 1214 ss 1009212248 JSTOR 2676741 angl Fisher R A 1921 On the probable error of a coefficient of correlation deduced from a small sample Metron 1 3 32 angl Fisher R A 1922 On the mathematical foundations of theoretical statistics Philosophical Transactions of the Royal Society A 222 594 604 309 368 doi 10 1098 rsta 1922 0009 JFM 48 1280 02 JSTOR 91208 angl Klemens Ben 2008 Modeling with Data Tools and Techniques for Scientific Computing Princeton University Press s 329 angl Fisher Ronald 1930 Inverse Probability Mathematical Proceedings of the Cambridge Philosophical Society 26 4 528 535 doi 10 1017 S0305004100016297 angl Fienberg Stephen E 1997 Introduction to R A Fisher on inverse probability and likelihood en 12 3 161 doi 10 1214 ss 1030037905 angl Royall R 1997 Statistical Evidence Chapman amp Hall angl I J Good Probability and the Weighing of Evidence Griffin 1950 6 1 angl H Jeffreys Theory of Probability 3rd ed Oxford University Press 1983 1 22 angl E T Jaynes Probability Theory The Logic of Science Cambridge University Press 2003 4 1 angl D V Lindley Introduction to Probability and Statistics from a Bayesian Viewpoint Part 1 Probability Cambridge University Press 1980 1 6 angl A Gelman J B Carlin H S Stern D B Dunson A Vehtari D B Rubin Bayesian Data Analysis 3rd ed Chapman amp Hall CRC 2014 1 3 angl Sox H C Higgins M C Owens D K 2013 Medical Decision Making vid 2nd Wiley chapters 3 4