Оці́нка ма́ксимуму апостеріо́рної імові́рності (МАІ, англ. maximum a posteriori probability estimate, MAP) у баєсовій статистиці — це мода апостеріорного розподілу. МАІ може застосовуватися для отримання точкової оцінки неспостережуваної величини на базі емпіричних даних. Вона є тісно пов'язаною з методом максимальної правдоподібності (МП, англ. maximum likelihood, ML) Фішера, але застосовує розширену цільову функцію, що включає апріорний розподіл оцінюваної величини. Таким чином, МАІ можна розглядати як регуляризацію оцінки МП.
Опис
Припустімо, що ми хочемо оцінити неспостережуваний параметр розподілу на базі спостережень . Нехай буде вибірковим розподілом , так що є ймовірністю , коли підлеглий параметр розподілу є . Тоді функція
є відомою як функція правдоподібності, а оцінка
є оцінкою максимальної правдоподібності .
Тепер припустімо, що існує апріорний розподіл , . Це дозволяє нам розглядати як випадкову змінну в баєсовій статистиці. Тоді апостеріорний розподіл є наступним:
де є функцією густини , а є областю визначення . Це є прямим застосуванням теореми Баєса.
Відтак метод оцінки апостеріорного максимуму оцінює як моду апостеріорного розподілу цієї випадкової змінної:
Знаменник цього апостеріорного розподілу (так звана [en]) не залежить від , і тому не відіграє ролі в оптимізації. Зверніть увагу, що коли апріорне є рівномірним (тобто сталою функцією), то оцінка МАІ збігається з оцінкою МП. І що коли функція втрат має вигляд
та прямує до 0, то послідовність баєсових оцінок наближається до оцінювача МАІ, за умови, що розподіл є одномодовим. Але в цілому оцінювач МАІ не є баєсовим оцінювачем, хіба що якщо є дискретною.
Обчислення
Оцінку МАІ може було обчислювано кількома шляхами:
- Аналітичним, коли моду (моди) апостеріорного розподілу може бути задано в [en]. Це той випадок, коли застосовуються спряжені апріорні.
- Шляхом чисельної оптимізації, такої як метод спряжених градієнтів або метод Ньютона. Це зазвичай вимагає перших або других похідних, що має бути виражено чи то аналітично, чи то чисельно.
- Шляхом видозміни алгоритму очікування-максимізації. Це не вимагає похідних апостеріорної густини.
- Методом Монте-Карло із застосуванням імітації відпалу.
Критика
Хоча оцінка МАІ і є границею баєсових оцінок (при функції втрат 0-1), вона не є типовим представником баєсових методів у цілому. Причина в тому, що оцінки МАІ є точковими, тоді як баєсові методи характеризуються використанням розподілів для підсумовування даних та видачі висновків: так, баєсові методи тяжіють замість цього до повідомлення апостеріорного середнього або медіани разом із імовірними інтервалами. В обох випадках причиною є те, що ці оцінки є оптимальними при втратах із квадратичною або лінійною помилкою відповідно, — а вони є характернішими представниками типових функцій втрат, — і те, що апостеріорний розподіл може не мати простої аналітичної форми: в такому випадку цей розподіл може бути симульовано за допомогою методик Монте-Карло марковських ланцюгів, тоді як оптимізація для пошуку цієї моди (мод) може бути складною, або неможливою.[]
У багатьох типах моделей, як наприклад [en], апостеріорне може бути бімодальним. У такому разі звичною порадою є обирати найвищу моду: це не завжди є прийнятним (глобальна оптимізація є складною задачею), а в деяких випадках навіть і неможливим (як при виникненні проблем [en]). До того ж, найвища мода може бути не характерною для більшості апостеріорного.
Нарешті, на відміну від оцінок МП, оцінка МАІ не є [en]. Перемикання з однієї параметризації на іншу включає введення якобіану, що впливає на положення максимуму.
Як приклад різниці між згаданими вище баєсовими оцінками (середнього та медіани) та використанням оцінки МАІ, розгляньмо випадок, коли необхідно класифікувати входи як або позитивні, або негативні (наприклад, позички як ризиковані або безпечні). Припустімо, що існує лише три можливі гіпотези правильного методу класифікації, , and , з апостеріорними 0.4, 0.3 та 0.3 відповідно. Припустімо, що заданий новий зразок гіпотеза класифікує як позитивний, тоді як дві інші — як негативний. При застосуванні оцінки МАІ для точного класифікатора , класифікується як позитивний, тоді як баєсові оцінки зробили би усереднення над усіма гіпотезами, та класифікували би як негативний.
Приклад
Припустімо, що нам дано послідовність незалежних однаково розподілених випадкових змінних та апріорний розподіл , заданий . Ми хочемо отримати оцінку МАІ .
Функцію, що потрібно максимізувати, задано як
що є еквівалентним мінімізації наступної функції :
Отже, ми бачимо, що оцінка МАІ для μ задається як
що виявляється лінійною інтерполяцією середнього апріорного та середнього вибірки, зважену за їхніми відповідними коваріаціями.
Випадок називається неінформативним апріорним, і веде до недовизначеного апріорного розподілу ймовірності; в цьому випадку
Ця стаття потребує додаткових для поліпшення її . (серпень 2015) |
Посилання
- Murphy, Kevin P. (2012). Machine learning : a probabilistic perspective. Cambridge, MA: MIT Press. с. 151–152. ISBN . (англ.)
Джерела
- M. DeGroot, Optimal Statistical Decisions, McGraw-Hill, (1970). (англ.)
- Harold W. Sorenson, (1980) "Parameter Estimation: Principles and Problems", Marcel Dekker. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Oci nka ma ksimumu aposterio rnoyi imovi rnosti MAI angl maximum a posteriori probability estimate MAP u bayesovij statistici ce moda aposteriornogo rozpodilu MAI mozhe zastosovuvatisya dlya otrimannya tochkovoyi ocinki nesposterezhuvanoyi velichini na bazi empirichnih danih Vona ye tisno pov yazanoyu z metodom maksimalnoyi pravdopodibnosti MP angl maximum likelihood ML Fishera ale zastosovuye rozshirenu cilovu funkciyu sho vklyuchaye apriornij rozpodil ocinyuvanoyi velichini Takim chinom MAI mozhna rozglyadati yak regulyarizaciyu ocinki MP OpisPripustimo sho mi hochemo ociniti nesposterezhuvanij parametr rozpodilu 8 displaystyle theta na bazi sposterezhen x displaystyle x Nehaj f displaystyle f bude vibirkovim rozpodilom x displaystyle x tak sho f x 8 displaystyle f x theta ye jmovirnistyu x displaystyle x koli pidleglij parametr rozpodilu ye 8 displaystyle theta Todi funkciya 8 f x 8 displaystyle theta mapsto f x theta ye vidomoyu yak funkciya pravdopodibnosti a ocinka 8 ML x argmax8 f x 8 displaystyle hat theta mathrm ML x underset theta operatorname arg max f x theta ye ocinkoyu maksimalnoyi pravdopodibnosti 8 displaystyle theta Teper pripustimo sho isnuye apriornij rozpodil 8 displaystyle theta g displaystyle g Ce dozvolyaye nam rozglyadati 8 displaystyle theta yak vipadkovu zminnu v bayesovij statistici Todi aposteriornij rozpodil 8 displaystyle theta ye nastupnim 8 f 8 x f x 8 g 8 ϑ 8f x ϑ g ϑ dϑ displaystyle theta mapsto f theta x frac f x theta g theta displaystyle int vartheta in Theta f x vartheta g vartheta d vartheta de g displaystyle g ye funkciyeyu gustini 8 displaystyle theta a 8 displaystyle Theta ye oblastyu viznachennya g displaystyle g Ce ye pryamim zastosuvannyam teoremi Bayesa Vidtak metod ocinki aposteriornogo maksimumu ocinyuye 8 displaystyle theta yak modu aposteriornogo rozpodilu ciyeyi vipadkovoyi zminnoyi 8 MAP x argmax8 f x 8 g 8 ϑf x ϑ g ϑ dϑ argmax8 f x 8 g 8 displaystyle hat theta mathrm MAP x underset theta operatorname arg max frac f x theta g theta displaystyle int vartheta f x vartheta g vartheta d vartheta underset theta operatorname arg max f x theta g theta Znamennik cogo aposteriornogo rozpodilu tak zvana en ne zalezhit vid 8 displaystyle theta i tomu ne vidigraye roli v optimizaciyi Zvernit uvagu sho koli apriorne g displaystyle g ye rivnomirnim tobto staloyu funkciyeyu to ocinka 8 displaystyle theta MAI zbigayetsya z ocinkoyu MP I sho koli funkciya vtrat maye viglyad L 8 a 0 if a 8 lt c1 otherwise displaystyle L theta a begin cases 0 amp mbox if a theta lt c 1 amp mbox otherwise end cases ta c displaystyle c pryamuye do 0 to poslidovnist bayesovih ocinok nablizhayetsya do ocinyuvacha MAI za umovi sho rozpodil 8 displaystyle theta ye odnomodovim Ale v cilomu ocinyuvach MAI ne ye bayesovim ocinyuvachem hiba sho yaksho 8 displaystyle theta ye diskretnoyu ObchislennyaOcinku MAI mozhe bulo obchislyuvano kilkoma shlyahami Analitichnim koli modu modi aposteriornogo rozpodilu mozhe buti zadano v en Ce toj vipadok koli zastosovuyutsya spryazheni apriorni Shlyahom chiselnoyi optimizaciyi takoyi yak metod spryazhenih gradiyentiv abo metod Nyutona Ce zazvichaj vimagaye pershih abo drugih pohidnih sho maye buti virazheno chi to analitichno chi to chiselno Shlyahom vidozmini algoritmu ochikuvannya maksimizaciyi Ce ne vimagaye pohidnih aposteriornoyi gustini Metodom Monte Karlo iz zastosuvannyam imitaciyi vidpalu KritikaHocha ocinka MAI i ye graniceyu bayesovih ocinok pri funkciyi vtrat 0 1 vona ne ye tipovim predstavnikom bayesovih metodiv u cilomu Prichina v tomu sho ocinki MAI ye tochkovimi todi yak bayesovi metodi harakterizuyutsya vikoristannyam rozpodiliv dlya pidsumovuvannya danih ta vidachi visnovkiv tak bayesovi metodi tyazhiyut zamist cogo do povidomlennya aposteriornogo serednogo abo mediani razom iz imovirnimi intervalami V oboh vipadkah prichinoyu ye te sho ci ocinki ye optimalnimi pri vtratah iz kvadratichnoyu abo linijnoyu pomilkoyu vidpovidno a voni ye harakternishimi predstavnikami tipovih funkcij vtrat i te sho aposteriornij rozpodil mozhe ne mati prostoyi analitichnoyi formi v takomu vipadku cej rozpodil mozhe buti simulovano za dopomogoyu metodik Monte Karlo markovskih lancyugiv todi yak optimizaciya dlya poshuku ciyeyi modi mod mozhe buti skladnoyu abo nemozhlivoyu dzherelo Priklad gustini bimodalnogo rozpodilu v yakomu najvisha moda ye ne harakternoyu dlya bilshosti rozpodilu U bagatoh tipah modelej yak napriklad en aposteriorne mozhe buti bimodalnim U takomu razi zvichnoyu poradoyu ye obirati najvishu modu ce ne zavzhdi ye prijnyatnim globalna optimizaciya ye skladnoyu zadacheyu a v deyakih vipadkah navit i nemozhlivim yak pri viniknenni problem en Do togo zh najvisha moda mozhe buti ne harakternoyu dlya bilshosti aposteriornogo Nareshti na vidminu vid ocinok MP ocinka MAI ne ye en Peremikannya z odniyeyi parametrizaciyi na inshu vklyuchaye vvedennya yakobianu sho vplivaye na polozhennya maksimumu Yak priklad riznici mizh zgadanimi vishe bayesovimi ocinkami serednogo ta mediani ta vikoristannyam ocinki MAI rozglyanmo vipadok koli neobhidno klasifikuvati vhodi x displaystyle x yak abo pozitivni abo negativni napriklad pozichki yak rizikovani abo bezpechni Pripustimo sho isnuye lishe tri mozhlivi gipotezi pravilnogo metodu klasifikaciyi h1 displaystyle h 1 h2 displaystyle h 2 and h3 displaystyle h 3 z aposteriornimi 0 4 0 3 ta 0 3 vidpovidno Pripustimo sho zadanij novij zrazok x displaystyle x gipoteza h1 displaystyle h 1 klasifikuye yak pozitivnij todi yak dvi inshi yak negativnij Pri zastosuvanni ocinki MAI dlya tochnogo klasifikatora h1 displaystyle h 1 x displaystyle x klasifikuyetsya yak pozitivnij todi yak bayesovi ocinki zrobili bi userednennya nad usima gipotezami ta klasifikuvali bi x displaystyle x yak negativnij PrikladPripustimo sho nam dano poslidovnist x1 xn displaystyle x 1 dots x n nezalezhnih odnakovo rozpodilenih vipadkovih zminnih N m sv2 displaystyle N mu sigma v 2 ta apriornij rozpodil m displaystyle mu zadanij N m0 sm2 displaystyle N mu 0 sigma m 2 Mi hochemo otrimati ocinku MAI m displaystyle mu Funkciyu sho potribno maksimizuvati zadano yak f m f x m p m L m 12psmexp 12 m m0sm 2 j 1n12psvexp 12 xj msv 2 displaystyle f mu f x mu pi mu L mu frac 1 sqrt 2 pi sigma m exp left frac 1 2 left frac mu mu 0 sigma m right 2 right prod j 1 n frac 1 sqrt 2 pi sigma v exp left frac 1 2 left frac x j mu sigma v right 2 right sho ye ekvivalentnim minimizaciyi nastupnoyi funkciyi m displaystyle mu j 1n xj msv 2 m m0sm 2 displaystyle sum j 1 n left frac x j mu sigma v right 2 left frac mu mu 0 sigma m right 2 Otzhe mi bachimo sho ocinka MAI dlya m zadayetsya yak m MAP nsm2nsm2 sv2 1n j 1nxj sv2nsm2 sv2m0 displaystyle hat mu MAP frac n sigma m 2 n sigma m 2 sigma v 2 left frac 1 n sum j 1 n x j right frac sigma v 2 n sigma m 2 sigma v 2 mu 0 sho viyavlyayetsya linijnoyu interpolyaciyeyu serednogo apriornogo ta serednogo vibirki zvazhenu za yihnimi vidpovidnimi kovariaciyami Vipadok sm displaystyle sigma m to infty nazivayetsya neinformativnim apriornim i vede do nedoviznachenogo apriornogo rozpodilu jmovirnosti v comu vipadku m MAP m ML displaystyle hat mu MAP to hat mu ML Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno serpen 2015 PosilannyaMurphy Kevin P 2012 Machine learning a probabilistic perspective Cambridge MA MIT Press s 151 152 ISBN 0262018020 angl DzherelaM DeGroot Optimal Statistical Decisions McGraw Hill 1970 angl Harold W Sorenson 1980 Parameter Estimation Principles and Problems Marcel Dekker angl