У статистиці використання коефіціє́нтів Ба́єса (англ. Bayes factors) є баєсовою альтернативою класичній перевірці гіпотез. Ба́єсове порівня́ння моде́лей є методом обирання моделі, що ґрунтується на коефіцієнтах Баєса.
Коефіцієнт Баєса | |
Названо на честь | Томас Баєс |
---|---|
Формула | |
Підтримується Вікіпроєктом |
Визначення
Апостеріорна ймовірність Pr(M|D) моделі M при заданих даних D задається теоремою Баєса:
Ключовий залежний від даних член Pr(D|M) є правдоподібністю, він представляє ймовірність виникнення якихось даних за умови цієї моделі, M; його коректне обчислення є ключем до баєсового порівняння моделей.
При заданій задачі обирання моделі, в якій ми маємо зробити вибір серед двох моделей на підставі спостережуваних даних D, правдоподібність двох різних моделей M1 та M2, параметризованих векторами параметрів моделей та , оцінюється коефіцієнтом Баєса K, що задається як
Якщо замість інтегралу коефіцієнта Баєса використовується правдоподібність, що відповідає оцінці максимальної правдоподібності параметра кожної з моделей, тоді ця перевірка стає класичною перевіркою відношенням правдоподібностей.[] На відміну від перевірки відношенням правдоподібностей, це баєсове порівняння моделей не залежить від жодного окремого набору параметрів, оскільки воно інтегрується над усіма параметрами в кожній з моделей (по відношенню до відповідних апріорних ймовірностей). І тим не менш, перевагою використання коефіцієнтів Баєса є те, що воно автоматично і цілком природно включає штраф за надлишкове включення структури моделі. Воно таким чином захищає від перенавчання. Для моделей, для яких точна версія правдоподібності є недоступною або занадто витратною для чисельного оцінювання, для вибору моделі у баєсовій мережі може використовуватися приблизне баєсове обчислення, із застереженням, що приблизно-баєсові оцінки коефіцієнтів Баєса часто є упередженими.
Іншими підходами є:
- розглядати порівняння моделей як (задачу ухвалення рішення), обчислюючи очікуване значення або вартість кожного вибору моделі;
- застосовувати мінімальну довжину повідомлення.
Інтерпретація
Значення K > 1 означає, що M1 підтримується даними, що розглядаються, сильніше, ніж M2. Зауважте, що класична перевірка гіпотез надає одній гіпотезі (або моделі) привілейованого статусу («нульова гіпотеза»), і розглядає лише свідчення проти неї. Гарольд Джеффріс запропонував шкалу для інтерпретації K:
K дХарт біти Сила свідчення < 100 < 0 негативна (підтримує M2) 100—101/2 0—5 0—1.6 заледве варта згадування 101/2—101 5—10 1.6—3.3 істотна 101—103/2 10—15 3.3—5.0 сильна 103/2—102 15—20 5.0—6.6 дуже сильна > 102 > 20 > 6.6 вирішальна
Другий стовпчик подає відповідну вагу свідчення в децигартлі (також відомих як децибани); біти додано у третьому стовпчику для ясності. Згідно з [en], зміна у вазі свідчення в 1 децибан або 1/3 біту (тобто, зміна у співвідношенні шансів з рівних до приблизно 5:4) є приблизно настільки тонкою, наскільки люди можуть розсудливо розрізняти свої міри переконання в гіпотезах у повсякденному вжитку.
Альтернативну, широко цитовану таблицю запропоновано Кассом та [en]:
2 ln K K Сила свідчення 0—2 1—3 не варте більш ніж просто згадки 2—6 3—20 позитивне 6—10 20—150 сильне >10 >150 дуже сильне
Використання коефіцієнту Баєса або класичної перевірки гіпотез трапляється радше в контексті висновування, ніж ухвалення рішень в умовах невизначеності. Тобто, ми радше просто хочемо з'ясувати, яка з гіпотез є правильною, ніж справді ухвалювати рішення на базі цієї інформації. Частотне висновування проводить чітке розрізнення між цими двома, оскільки класичні перевірки гіпотез не є [en] у баєсовому сенсі. Баєсові процедури, включно з коефіцієнтами Баєса, є когерентними, тому немає потреби проводити таке розрізнення. Тоді висновування просто розглядається як особливий випадок ухвалення рішення в умовах невизначеності, в якому дією результату є повідомлення значення. Для ухвалення рішень баєсові статистики можуть використовувати коефіцієнт Баєса у поєднанні з апріорним розподілом та функцією втрат, пов'язаною зі здійсненням невірного вибору. В контексті висновування функція втрат набуватиме форми [en]. Наприклад, використання [en] призводить до того, що очікувана корисність набуває форми відстані Кульбака — Лейблера.
Приклад
Припустімо, що ми маємо випадкову змінну, що продукує успіх або невдачу. Ми хочемо порівняти модель M1, де ймовірністю успіху є q = ½, та іншу модель M2, де q є невідомим та ми приймаємо, що апріорним розподілом q є рівномірний на [0,1]. Ми робимо вибірку з 200, і виявляємо 115 успіхів та 85 невдач. Правдоподібність може бути обчислено згідно біноміального розподілу:
Отже, ми маємо
але
Тоді відношенням є 1.197…, що є «заледве вартим згадування», незважаючи на те, що воно вказує трішки в бік M1.
Це не є тим самим, що й класична перевірка відношенням правдоподібностей, що знайшла би оцінку максимальної правдоподібності для q, а саме 115⁄200 = 0.575, звідки (замість усереднення за всіма можливими q). Це дає відношення правдоподібностей 0.1045, і таким чином вказує на M2.
Сучасний метод відносної правдоподібності, на відміну від класичного відношення правдоподібностей, враховує кількість вільних параметрів у моделях. Метод відносної правдоподібності може застосовуватися наступним чином. Модель M1 має 0 параметрів, і тому значенням її ІКА є 2·0 − 2·ln(0.005956) = 10.2467. Модель M2 має 1 параметр, і тому значенням її ІКА є 2·1 − 2·ln(0.056991) = 7.7297. Отже, M1 є приблизно у exp((7.7297 − 10.2467)/2) = 0.284 разів ймовірнішою за M2 для мінімізації втрати інформації. Відтак, M2 є трохи кращою, але M1 не може виключатися.
Частотна перевірка гіпотези M1 (що розглядається тут як нульова гіпотеза) видала би тут зовсім інший результат. Така перевірка каже, що M1 мала би бути відкинутою на рівні значущості 5%, оскільки ймовірністю отримання 115 або більше успіхів з вибірки з 200, якщо q = ½, є 0.0200, та оскільки [en] отримання значення настільки ж віддаленого, або віддаленішого за 115, є 0.0400. Зауважте, що 115 є у більш ніж двох стандартних відхиленнях від 100.
M2 є складнішою моделлю за M1, оскільки вона має вільний параметр, що дозволяє їй моделювати дані ближче. Здатність коефіцієнтів Баєса враховувати це є тією причиною, чому баєсове висновування було висунуто як теоретичне обґрунтування та узагальнення Бритви Оккама, що зменшує похибки першого роду.
Див. також
- Інформаційний критерій Акаіке
- Приблизне баєсове обчислення
- Баєсів інформаційний критерій
- [en]
- Парадокс Ліндлі
- Мінімальна довжина повідомлення
- Обирання моделі
- Статистичні відношення
- [en]
- Відносний ризик
Примітки
- Goodman S. (1999). (PDF). Ann Intern Med. 130 (12): 995—1004. doi:10.7326/0003-4819-130-12-199906150-00008. PMID 10383371. Архів оригіналу (PDF) за 14 Жовтня 2008. Процитовано 6 Червня 2015. (англ.)
- Goodman S. (1999). (PDF). Ann Intern Med. 130 (12): 1005—13. doi:10.7326/0003-4819-130-12-199906150-00019. PMID 10383350. Архів оригіналу (PDF) за 15 Жовтня 2009. Процитовано 6 Червня 2015. (англ.)
- Robert E. Kass and [en] (1995). (PDF). Journal of the American Statistical Association. 90 (430): 791. doi:10.2307/2291091. Архів оригіналу (PDF) за 23 Вересня 2015. Процитовано 6 Червня 2015. (англ.)
- Toni, T.; Stumpf, M.P.H. (2009). Simulation-based model selection for dynamical systems in systems and population biology (PDF). Bioinformatics. 26 (1): 104—10. doi:10.1093/bioinformatics/btp619. PMC 2796821. PMID 19880371. (англ.)
- Robert, C.P., J. Cornuet, J. Marin and N.S. Pillai (2011). Lack of confidence in approximate Bayesian computation model choice. Proceedings of the National Academy of Sciences. 108 (37): 15112—15117. doi:10.1073/pnas.1102900108. PMC 3174657. PMID 21876135. (англ.)
- H. Jeffreys (1961). (вид. 3). Oxford. с. 432. Архів оригіналу за 8 Квітня 2016. Процитовано 26 Березня 2016. (англ.)
- (1979). Studies in the History of Probability and Statistics. XXXVII A. M. Turing's statistical work in World War II. [en]. 66 (2): 393—396. doi:10.1093/biomet/66.2.393. MR 82c:01049.
{{}}
: Перевірте значення|mr=
() (англ.) - Sharpening Ockham's Razor On a Bayesian Strop [ 12 Вересня 2015 у Wayback Machine.] (англ.)
Література
- Bernardo, J.; Smith, A. F. M. (1994). Bayesian Theory. John Wiley. ISBN . (англ.)
- Denison, D. G. T.; Holmes, C. C.; Mallick, B. K.; Smith, A. F. M. (2002). Bayesian Methods for Nonlinear Classification and Regression. John Wiley. ISBN . (англ.)
- Duda, Richard O.; Hart, Peter E.; Stork, David G. (2000). Section 9.6.5. Pattern classification (вид. 2nd). Wiley. с. 487—489. ISBN . (англ.)
- Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2013). (вид. III). CRC Press. ISBN . Архів оригіналу за 26 Червня 2015. Процитовано 26 Червня 2015. (англ.)
- [en] (1994), Probability Theory: the logic of science [ 24 Жовтня 2018 у Wayback Machine.], chapter 24. (англ.)
- Lee, P. M. (2012). Bayesian Statistics: an introduction. Wiley. ISBN . (англ.)
- Winkler, Robert (2003). Introduction to Bayesian Inference and Decision (вид. 2nd). Probabilistic. ISBN . (англ.)
Посилання
- BayesFactor [ 21 Червня 2013 у Wayback Machine.] — пакет R для обчислення коефіцієнтів Баєса у звичайних планах досліджень
- Bayes Factor Calculators [ 7 Травня 2015 у Wayback Machine.] — інтернет-версія значної частини пакету BayesFactor
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici vikoristannya koeficiye ntiv Ba yesa angl Bayes factors ye bayesovoyu alternativoyu klasichnij perevirci gipotez Ba yesove porivnya nnya mode lej ye metodom obirannya modeli sho gruntuyetsya na koeficiyentah Bayesa Koeficiyent Bayesa Nazvano na chestTomas Bayes Formula Pr 8 1 M 1 Pr D 8 1 M 1 d 8 1 Pr 8 2 M 2 Pr D 8 2 M 2 d 8 2 displaystyle frac int Pr theta 1 M 1 Pr D theta 1 M 1 d theta 1 int Pr theta 2 M 2 Pr D theta 2 M 2 d theta 2 Pidtrimuyetsya VikiproyektomVikipediya Proyekt MatematikaViznachennyaAposteriorna jmovirnist Pr M D modeli M pri zadanih danih D zadayetsya teoremoyu Bayesa Pr M D Pr D M Pr M Pr D displaystyle Pr M D frac Pr D M Pr M Pr D Klyuchovij zalezhnij vid danih chlen Pr D M ye pravdopodibnistyu vin predstavlyaye jmovirnist viniknennya yakihos danih za umovi ciyeyi modeli M jogo korektne obchislennya ye klyuchem do bayesovogo porivnyannya modelej Pri zadanij zadachi obirannya modeli v yakij mi mayemo zrobiti vibir sered dvoh modelej na pidstavi sposterezhuvanih danih D pravdopodibnist dvoh riznih modelej M1 ta M2 parametrizovanih vektorami parametriv modelej 8 1 displaystyle theta 1 ta 8 2 displaystyle theta 2 ocinyuyetsya koeficiyentom Bayesa K sho zadayetsya yak K Pr D M 1 Pr D M 2 Pr 8 1 M 1 Pr D 8 1 M 1 d 8 1 Pr 8 2 M 2 Pr D 8 2 M 2 d 8 2 displaystyle K frac Pr D M 1 Pr D M 2 frac int Pr theta 1 M 1 Pr D theta 1 M 1 d theta 1 int Pr theta 2 M 2 Pr D theta 2 M 2 d theta 2 Yaksho zamist integralu koeficiyenta Bayesa vikoristovuyetsya pravdopodibnist sho vidpovidaye ocinci maksimalnoyi pravdopodibnosti parametra kozhnoyi z modelej todi cya perevirka staye klasichnoyu perevirkoyu vidnoshennyam pravdopodibnostej dzherelo Na vidminu vid perevirki vidnoshennyam pravdopodibnostej ce bayesove porivnyannya modelej ne zalezhit vid zhodnogo okremogo naboru parametriv oskilki vono integruyetsya nad usima parametrami v kozhnij z modelej po vidnoshennyu do vidpovidnih apriornih jmovirnostej I tim ne mensh perevagoyu vikoristannya koeficiyentiv Bayesa ye te sho vono avtomatichno i cilkom prirodno vklyuchaye shtraf za nadlishkove vklyuchennya strukturi modeli Vono takim chinom zahishaye vid perenavchannya Dlya modelej dlya yakih tochna versiya pravdopodibnosti ye nedostupnoyu abo zanadto vitratnoyu dlya chiselnogo ocinyuvannya dlya viboru modeli u bayesovij merezhi mozhe vikoristovuvatisya priblizne bayesove obchislennya iz zasterezhennyam sho priblizno bayesovi ocinki koeficiyentiv Bayesa chasto ye uperedzhenimi Inshimi pidhodami ye rozglyadati porivnyannya modelej yak zadachu uhvalennya rishennya obchislyuyuchi ochikuvane znachennya abo vartist kozhnogo viboru modeli zastosovuvati minimalnu dovzhinu povidomlennya InterpretaciyaZnachennya K gt 1 oznachaye sho M1 pidtrimuyetsya danimi sho rozglyadayutsya silnishe nizh M2 Zauvazhte sho klasichna perevirka gipotez nadaye odnij gipotezi abo modeli privilejovanogo statusu nulova gipoteza i rozglyadaye lishe svidchennya proti neyi Garold Dzheffris zaproponuvav shkalu dlya interpretaciyi K K dHart biti Sila svidchennya lt 100 lt 0 negativna pidtrimuye M2 100 101 2 0 5 0 1 6 zaledve varta zgaduvannya 101 2 101 5 10 1 6 3 3 istotna 101 103 2 10 15 3 3 5 0 silna 103 2 102 15 20 5 0 6 6 duzhe silna gt 102 gt 20 gt 6 6 virishalna Drugij stovpchik podaye vidpovidnu vagu svidchennya v decigartli takozh vidomih yak decibani biti dodano u tretomu stovpchiku dlya yasnosti Zgidno z en zmina u vazi svidchennya v 1 deciban abo 1 3 bitu tobto zmina u spivvidnoshenni shansiv z rivnih do priblizno 5 4 ye priblizno nastilki tonkoyu naskilki lyudi mozhut rozsudlivo rozriznyati svoyi miri perekonannya v gipotezah u povsyakdennomu vzhitku Alternativnu shiroko citovanu tablicyu zaproponovano Kassom ta en 2 ln K K Sila svidchennya 0 2 1 3 ne varte bilsh nizh prosto zgadki 2 6 3 20 pozitivne 6 10 20 150 silne gt 10 gt 150 duzhe silne Vikoristannya koeficiyentu Bayesa abo klasichnoyi perevirki gipotez traplyayetsya radshe v konteksti visnovuvannya nizh uhvalennya rishen v umovah neviznachenosti Tobto mi radshe prosto hochemo z yasuvati yaka z gipotez ye pravilnoyu nizh spravdi uhvalyuvati rishennya na bazi ciyeyi informaciyi Chastotne visnovuvannya provodit chitke rozriznennya mizh cimi dvoma oskilki klasichni perevirki gipotez ne ye en u bayesovomu sensi Bayesovi proceduri vklyuchno z koeficiyentami Bayesa ye kogerentnimi tomu nemaye potrebi provoditi take rozriznennya Todi visnovuvannya prosto rozglyadayetsya yak osoblivij vipadok uhvalennya rishennya v umovah neviznachenosti v yakomu diyeyu rezultatu ye povidomlennya znachennya Dlya uhvalennya rishen bayesovi statistiki mozhut vikoristovuvati koeficiyent Bayesa u poyednanni z apriornim rozpodilom ta funkciyeyu vtrat pov yazanoyu zi zdijsnennyam nevirnogo viboru V konteksti visnovuvannya funkciya vtrat nabuvatime formi en Napriklad vikoristannya en prizvodit do togo sho ochikuvana korisnist nabuvaye formi vidstani Kulbaka Lejblera PrikladPripustimo sho mi mayemo vipadkovu zminnu sho produkuye uspih abo nevdachu Mi hochemo porivnyati model M1 de jmovirnistyu uspihu ye q ta inshu model M2 de q ye nevidomim ta mi prijmayemo sho apriornim rozpodilom q ye rivnomirnij na 0 1 Mi robimo vibirku z 200 i viyavlyayemo 115 uspihiv ta 85 nevdach Pravdopodibnist mozhe buti obchisleno zgidno binomialnogo rozpodilu 200 115 q 115 1 q 85 displaystyle 200 choose 115 q 115 1 q 85 Otzhe mi mayemo P X 115 M 1 200 115 1 2 200 0 005956 displaystyle P X 115 mid M 1 200 choose 115 left 1 over 2 right 200 0 005956 ale P X 115 M 2 0 1 200 115 q 115 1 q 85 d q 1 201 0 004975 displaystyle P X 115 mid M 2 int 0 1 200 choose 115 q 115 1 q 85 dq 1 over 201 0 004975 Todi vidnoshennyam ye 1 197 sho ye zaledve vartim zgaduvannya nezvazhayuchi na te sho vono vkazuye trishki v bik M1 Ce ne ye tim samim sho j klasichna perevirka vidnoshennyam pravdopodibnostej sho znajshla bi ocinku maksimalnoyi pravdopodibnosti dlya q a same 115 200 0 575 zvidki P X 115 M 2 200 115 q 115 1 q 85 0 056991 displaystyle textstyle P X 115 mid M 2 200 choose 115 q 115 1 q 85 0 056991 zamist userednennya za vsima mozhlivimi q Ce daye vidnoshennya pravdopodibnostej 0 1045 i takim chinom vkazuye na M2 Suchasnij metod vidnosnoyi pravdopodibnosti na vidminu vid klasichnogo vidnoshennya pravdopodibnostej vrahovuye kilkist vilnih parametriv u modelyah Metod vidnosnoyi pravdopodibnosti mozhe zastosovuvatisya nastupnim chinom Model M1 maye 0 parametriv i tomu znachennyam yiyi IKA ye 2 0 2 ln 0 005956 10 2467 Model M2 maye 1 parametr i tomu znachennyam yiyi IKA ye 2 1 2 ln 0 056991 7 7297 Otzhe M1 ye priblizno u exp 7 7297 10 2467 2 0 284 raziv jmovirnishoyu za M2 dlya minimizaciyi vtrati informaciyi Vidtak M2 ye trohi krashoyu ale M1 ne mozhe viklyuchatisya Chastotna perevirka gipotezi M1 sho rozglyadayetsya tut yak nulova gipoteza vidala bi tut zovsim inshij rezultat Taka perevirka kazhe sho M1 mala bi buti vidkinutoyu na rivni znachushosti 5 oskilki jmovirnistyu otrimannya 115 abo bilshe uspihiv z vibirki z 200 yaksho q ye 0 0200 ta oskilki en otrimannya znachennya nastilki zh viddalenogo abo viddalenishogo za 115 ye 0 0400 Zauvazhte sho 115 ye u bilsh nizh dvoh standartnih vidhilennyah vid 100 M2 ye skladnishoyu modellyu za M1 oskilki vona maye vilnij parametr sho dozvolyaye yij modelyuvati dani blizhche Zdatnist koeficiyentiv Bayesa vrahovuvati ce ye tiyeyu prichinoyu chomu bayesove visnovuvannya bulo visunuto yak teoretichne obgruntuvannya ta uzagalnennya Britvi Okkama sho zmenshuye pohibki pershogo rodu Div takozhInformacijnij kriterij Akaike Priblizne bayesove obchislennya Bayesiv informacijnij kriterij en Paradoks Lindli Minimalna dovzhina povidomlennya Obirannya modeli Statistichni vidnoshennya en Vidnosnij rizikPrimitkiGoodman S 1999 PDF Ann Intern Med 130 12 995 1004 doi 10 7326 0003 4819 130 12 199906150 00008 PMID 10383371 Arhiv originalu PDF za 14 Zhovtnya 2008 Procitovano 6 Chervnya 2015 angl Goodman S 1999 PDF Ann Intern Med 130 12 1005 13 doi 10 7326 0003 4819 130 12 199906150 00019 PMID 10383350 Arhiv originalu PDF za 15 Zhovtnya 2009 Procitovano 6 Chervnya 2015 angl Robert E Kass and en 1995 PDF Journal of the American Statistical Association 90 430 791 doi 10 2307 2291091 Arhiv originalu PDF za 23 Veresnya 2015 Procitovano 6 Chervnya 2015 angl Toni T Stumpf M P H 2009 Simulation based model selection for dynamical systems in systems and population biology PDF Bioinformatics 26 1 104 10 doi 10 1093 bioinformatics btp619 PMC 2796821 PMID 19880371 angl Robert C P J Cornuet J Marin and N S Pillai 2011 Lack of confidence in approximate Bayesian computation model choice Proceedings of the National Academy of Sciences 108 37 15112 15117 doi 10 1073 pnas 1102900108 PMC 3174657 PMID 21876135 angl H Jeffreys 1961 vid 3 Oxford s 432 Arhiv originalu za 8 Kvitnya 2016 Procitovano 26 Bereznya 2016 angl 1979 Studies in the History of Probability and Statistics XXXVII A M Turing s statistical work in World War II en 66 2 393 396 doi 10 1093 biomet 66 2 393 MR 82c 01049 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Perevirte znachennya mr dovidka angl Sharpening Ockham s Razor On a Bayesian Strop 12 Veresnya 2015 u Wayback Machine angl LiteraturaBernardo J Smith A F M 1994 Bayesian Theory John Wiley ISBN 0 471 92416 4 angl Denison D G T Holmes C C Mallick B K Smith A F M 2002 Bayesian Methods for Nonlinear Classification and Regression John Wiley ISBN 0 471 49036 9 angl Duda Richard O Hart Peter E Stork David G 2000 Section 9 6 5 Pattern classification vid 2nd Wiley s 487 489 ISBN 0 471 05669 3 angl Gelman Andrew Carlin John B Stern Hal S Dunson David B Vehtari Aki Rubin Donald B 2013 vid III CRC Press ISBN 978 1439840955 Arhiv originalu za 26 Chervnya 2015 Procitovano 26 Chervnya 2015 angl en 1994 Probability Theory the logic of science 24 Zhovtnya 2018 u Wayback Machine chapter 24 angl Lee P M 2012 Bayesian Statistics an introduction Wiley ISBN 9781118332573 angl Winkler Robert 2003 Introduction to Bayesian Inference and Decision vid 2nd Probabilistic ISBN 0 9647938 4 9 angl PosilannyaBayesFactor 21 Chervnya 2013 u Wayback Machine paket R dlya obchislennya koeficiyentiv Bayesa u zvichajnih planah doslidzhen Bayes Factor Calculators 7 Travnya 2015 u Wayback Machine internet versiya znachnoyi chastini paketu BayesFactor