У статистиці, ба́єсів інформаці́йний крите́рій (БІК, англ. bayesian information criterion, BIC), або крите́рій Шва́рца (англ. Schwarz criterion, також англ. SBC, SBIC) — статистичний критерій для обирання моделі серед скінченної множини моделей; найприйнятнішою є модель із найнижчим БІК. Він ґрунтується, зокрема, на функції правдоподібності, і тісно пов'язаний з інформаційним критерієм Акаіке (ІКА).
При допасовуванні моделей можливо підвищувати правдоподібність шляхом додавання параметрів, але це може призводити до перенавчання. Як БІК, так і ІКА намагаються розв'язувати цю проблему введенням члена штрафу для числа параметрів у моделі; член штрафу в БІК є більшим, ніж в ІКА.
БІК було розроблено Ґідеоном Шварцем, і опубліковано в праці 1978 року, в якій він навів баєсове обґрунтування його застосування.
Визначення
БІК формально визначається як
де
- = максимізоване значення функції правдоподібності моделі , тобто, , де є значеннями параметрів, які максимізують функцію правдоподібності;
- = спостережувані дані;
- = число точок даних в , число спостережень, або, рівнозначно, розмір вибірки;
- = число вільних параметрів, які належить оцінити. Якщо модель, що розглядають, є лінійною регресією, то є числом регресорів, включно з відтином;
БІК є асимптотичним результатом, виведеним за припущення, що розподіл даних належить до [en]. Тобто, інтеграл функції правдоподібності , помножений на апріорний розподіл ймовірності над параметрами моделі , для незмінних спостережених даних наближується як
Для великих це може бути наближено наведеною вище формулою. БІК використовують в задачах обирання моделі, що в них додавання сталої до БІК не змінює результату.
Властивості
Цей розділ потребує додаткових для поліпшення його . (червень 2017) |
- Він не залежить від апріорного, або апріорне є «невизначеним» (сталою).
- Він може вимірювати ефективність параметризованої моделі в термінах передбачування даних.
- Він штрафує складність моделі, де складність позначає кількість параметрів моделі.
- Він наближено дорівнює критерієві мінімальної довжини опису, але з протилежним знаком.
- Його можна застосовувати для обирання числа кластерів відповідно до внутрішньої складності, присутньої в певному наборі даних.
- Він тісно пов'язаний з іншими критеріями штрафованої правдоподібності, такими як RIC[: ком.] та інформаційний критерій Акаіке.
Обмеження
Критерій БІК страждає на два головні обмеження
- наведене вище наближення чинне лише для розміру вибірки , який є набагато більшим за число параметрів моделі .
- БІК не може обробляти складні зібрання моделей, як у задачі обирання змінних (або обирання ознак) за високої розмірності.
Гаусів особливий випадок
За припущення, що похибки або збурення моделі є незалежними та однаково розподіленими згідно нормального розподілу, і граничної умови, що похідна логарифмічної правдоподібності щодо істинної дисперсії є нульовою, це перетворюється (з точністю до адитивної сталої, яка залежить від n, але не від моделі) на
де є дисперсією похибки. Дисперсію похибки в цьому випадку визначають як
що є зсунутою оцінкою істинної дисперсії.
В термінах [en] БІК є
При перевірці декількох лінійних моделей відносно насиченої моделі БІК може бути переписано в термінах [en] як
де є числом параметрів моделі в перевірці.
При обиранні з декількох моделей найприйнятнішою є модель із найнижчим БІК. БІК є висхідною функцією дисперсії похибки , і висхідною функцією k. Тобто, незрозуміла дисперсія в залежній змінній та число описових змінних збільшують значення БІК. Отже, нижчий БІК означає або меншу кількість описових змінних, або кращу допасованість, або обидві. Силу свідчення проти моделі з вищим БІК може бути узагальнено наступним чином:
ΔБІК | Свідчення проти вищого БІК |
---|---|
0 to 2 | Не варте більше ніж просто згадування |
2 to 6 | Позитивне |
6 to 10 | Сильне |
>10 | Дуже сильне |
БІК зазвичай штрафує вільні параметри сильніше за Інформаційний критерій Акаіке, хоча це залежить від розміру n і відносної величини n і k.
Важливо мати на увазі, що БІК можна застосовувати для порівняння оцінюваних моделей лише якщо числові значення залежної змінної є однаковими для всіх порівнюваних оцінок. Порівнюваним моделям не потрібно бути вкладеними, на відміну від випадку, коли моделі порівнюють із застосуванням критерію Фішера або перевірки відношенням правдоподібностей.
Див. також
Примітки
- Schwarz, Gideon E. (1978), Estimating the dimension of a model, [en], 6 (2): 461—464, doi:10.1214/aos/1176344136, MR 0468014 (англ.)
- Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). ‘All models are wrong...’: an introduction to model uncertainty. Statistica Neerlandica. 66 (3): 217—236. doi:10.1111/j.1467-9574.2012.00530.x. (англ.)
- Giraud, C. (2015). Introduction to high-dimensional statistics. Chapman & Hall/CRC. ISBN . (англ.)
- Priestley, M.B. (1981). Spectral Analysis and Time Series. [en]. ISBN . (p. 375). (англ.)
- Kass, Robert E.; Raftery, Adrian E. (1995), Bayes Factors, [en], 90 (430): 773—795, doi:10.2307/2291091, ISSN 0162-1459 (англ.)
Джерела
- Bhat, H. S.; Kumar, N (2010). (PDF). Архів оригіналу (PDF) за 28 березня 2012. (англ.)
- Findley, D. F. (1991). Counterexamples to parsimony and BIC. [en]. 43: 505—514. doi:10.1007/BF00053369. (англ.)
- Kass, R. E.; Wasserman, L. (1995). A reference Bayesian test for nested hypotheses and its relationship to the Schwarz criterion. [en]. 90: 928—934. (англ.)
- Liddle, A. R. (2007). Information criteria for astrophysical model selection. Monthly Notices of the Royal Astronomical Society. 377: L74—L78. (англ.)
- McQuarrie, A. D. R.; Tsai, C.-L. (1998). Regression and Time Series Model Selection. World Scientific. (англ.)
Посилання
- Information Criteria and Model Selection [ 27 березня 2017 у Wayback Machine.] (англ.)
- Sparse Vector Autoregressive Modeling [ 2 серпня 2017 у Wayback Machine.] (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U statistici ba yesiv informaci jnij krite rij BIK angl bayesian information criterion BIC abo krite rij Shva rca angl Schwarz criterion takozh angl SBC SBIC statistichnij kriterij dlya obirannya modeli sered skinchennoyi mnozhini modelej najprijnyatnishoyu ye model iz najnizhchim BIK Vin gruntuyetsya zokrema na funkciyi pravdopodibnosti i tisno pov yazanij z informacijnim kriteriyem Akaike IKA Pri dopasovuvanni modelej mozhlivo pidvishuvati pravdopodibnist shlyahom dodavannya parametriv ale ce mozhe prizvoditi do perenavchannya Yak BIK tak i IKA namagayutsya rozv yazuvati cyu problemu vvedennyam chlena shtrafu dlya chisla parametriv u modeli chlen shtrafu v BIK ye bilshim nizh v IKA BIK bulo rozrobleno Gideonom Shvarcem i opublikovano v praci 1978 roku v yakij vin naviv bayesove obgruntuvannya jogo zastosuvannya ViznachennyaBIK formalno viznachayetsya yak BIC ln n k 2ln L displaystyle mathrm BIC ln n k 2 ln hat L de L displaystyle hat L maksimizovane znachennya funkciyi pravdopodibnosti modeli M displaystyle M tobto L p x 8 M displaystyle hat L p x hat theta M de 8 displaystyle hat theta ye znachennyami parametriv yaki maksimizuyut funkciyu pravdopodibnosti x displaystyle x sposterezhuvani dani n displaystyle n chislo tochok danih v x displaystyle x chislo sposterezhen abo rivnoznachno rozmir vibirki k displaystyle k chislo vilnih parametriv yaki nalezhit ociniti Yaksho model sho rozglyadayut ye linijnoyu regresiyeyu to k displaystyle k ye chislom regresoriv vklyuchno z vidtinom BIK ye asimptotichnim rezultatom vivedenim za pripushennya sho rozpodil danih nalezhit do en Tobto integral funkciyi pravdopodibnosti p x 8 M displaystyle p x theta M pomnozhenij na apriornij rozpodil jmovirnosti p 8 M displaystyle p theta M nad parametrami 8 displaystyle theta modeli M displaystyle M dlya nezminnih sposterezhenih danih x displaystyle x nablizhuyetsya yak 2 ln p x M BIC 2 ln L k ln n ln 2p displaystyle 2 cdot ln p x M approx mathrm BIC 2 cdot ln hat L k cdot ln n ln 2 pi Dlya velikih n displaystyle n ce mozhe buti nablizheno navedenoyu vishe formuloyu BIK vikoristovuyut v zadachah obirannya modeli sho v nih dodavannya staloyi do BIK ne zminyuye rezultatu VlastivostiCej rozdil potrebuye dodatkovih posilan na dzherela dlya polipshennya jogo perevirnosti Bud laska dopomozhit udoskonaliti cej rozdil dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno cherven 2017 Vin ne zalezhit vid apriornogo abo apriorne ye neviznachenim staloyu Vin mozhe vimiryuvati efektivnist parametrizovanoyi modeli v terminah peredbachuvannya danih Vin shtrafuye skladnist modeli de skladnist poznachaye kilkist parametriv modeli Vin nablizheno dorivnyuye kriteriyevi minimalnoyi dovzhini opisu ale z protilezhnim znakom Jogo mozhna zastosovuvati dlya obirannya chisla klasteriv vidpovidno do vnutrishnoyi skladnosti prisutnoyi v pevnomu nabori danih Vin tisno pov yazanij z inshimi kriteriyami shtrafovanoyi pravdopodibnosti takimi yak RIC proyasniti kom ta informacijnij kriterij Akaike ObmezhennyaKriterij BIK strazhdaye na dva golovni obmezhennya navedene vishe nablizhennya chinne lishe dlya rozmiru vibirki n displaystyle n yakij ye nabagato bilshim za chislo parametriv modeli k displaystyle k BIK ne mozhe obroblyati skladni zibrannya modelej yak u zadachi obirannya zminnih abo obirannya oznak za visokoyi rozmirnosti Gausiv osoblivij vipadokZa pripushennya sho pohibki abo zburennya modeli ye nezalezhnimi ta odnakovo rozpodilenimi zgidno normalnogo rozpodilu i granichnoyi umovi sho pohidna logarifmichnoyi pravdopodibnosti shodo istinnoyi dispersiyi ye nulovoyu ce peretvoryuyetsya z tochnistyu do aditivnoyi staloyi yaka zalezhit vid n ale ne vid modeli na BIC n ln se2 k ln n displaystyle mathrm BIC n cdot ln widehat sigma e 2 k cdot ln n de se2 displaystyle widehat sigma e 2 ye dispersiyeyu pohibki Dispersiyu pohibki v comu vipadku viznachayut yak se2 1n i 1n xi xi 2 displaystyle widehat sigma e 2 frac 1 n sum i 1 n x i hat x i 2 sho ye zsunutoyu ocinkoyu istinnoyi dispersiyi V terminah en BIK ye BIC n ln RSS n k ln n displaystyle mathrm BIC n cdot ln RSS n k cdot ln n Pri perevirci dekilkoh linijnih modelej vidnosno nasichenoyi modeli BIK mozhe buti perepisano v terminah en x2 displaystyle chi 2 yak BIC x2 k ln n displaystyle mathrm BIC chi 2 k cdot ln n de k displaystyle k ye chislom parametriv modeli v perevirci Pri obiranni z dekilkoh modelej najprijnyatnishoyu ye model iz najnizhchim BIK BIK ye vishidnoyu funkciyeyu dispersiyi pohibki se2 displaystyle sigma e 2 i vishidnoyu funkciyeyu k Tobto nezrozumila dispersiya v zalezhnij zminnij ta chislo opisovih zminnih zbilshuyut znachennya BIK Otzhe nizhchij BIK oznachaye abo menshu kilkist opisovih zminnih abo krashu dopasovanist abo obidvi Silu svidchennya proti modeli z vishim BIK mozhe buti uzagalneno nastupnim chinom DBIK Svidchennya proti vishogo BIK0 to 2 Ne varte bilshe nizh prosto zgaduvannya2 to 6 Pozitivne6 to 10 Silne gt 10 Duzhe silne BIK zazvichaj shtrafuye vilni parametri silnishe za Informacijnij kriterij Akaike hocha ce zalezhit vid rozmiru n i vidnosnoyi velichini n i k Vazhlivo mati na uvazi sho BIK mozhna zastosovuvati dlya porivnyannya ocinyuvanih modelej lishe yaksho chislovi znachennya zalezhnoyi zminnoyi ye odnakovimi dlya vsih porivnyuvanih ocinok Porivnyuvanim modelyam ne potribno buti vkladenimi na vidminu vid vipadku koli modeli porivnyuyut iz zastosuvannyam kriteriyu Fishera abo perevirki vidnoshennyam pravdopodibnostej Div takozhInformacijnij kriterij Akaike Bayesove porivnyannya modelej en en en Vidstan Kulbaka Lejblera Minimalna dovzhina povidomlennya Obirannya modeliPrimitkiSchwarz Gideon E 1978 Estimating the dimension of a model en 6 2 461 464 doi 10 1214 aos 1176344136 MR 0468014 angl Wit Ernst Edwin van den Heuvel Jan Willem Romeyn 2012 All models are wrong an introduction to model uncertainty Statistica Neerlandica 66 3 217 236 doi 10 1111 j 1467 9574 2012 00530 x angl Giraud C 2015 Introduction to high dimensional statistics Chapman amp Hall CRC ISBN 9781482237948 angl Priestley M B 1981 Spectral Analysis and Time Series en ISBN 0 12 564922 3 p 375 angl Kass Robert E Raftery Adrian E 1995 Bayes Factors en 90 430 773 795 doi 10 2307 2291091 ISSN 0162 1459 angl DzherelaBhat H S Kumar N 2010 PDF Arhiv originalu PDF za 28 bereznya 2012 angl Findley D F 1991 Counterexamples to parsimony and BIC en 43 505 514 doi 10 1007 BF00053369 angl Kass R E Wasserman L 1995 A reference Bayesian test for nested hypotheses and its relationship to the Schwarz criterion en 90 928 934 angl Liddle A R 2007 Information criteria for astrophysical model selection Monthly Notices of the Royal Astronomical Society 377 L74 L78 angl McQuarrie A D R Tsai C L 1998 Regression and Time Series Model Selection World Scientific angl PosilannyaInformation Criteria and Model Selection 27 bereznya 2017 u Wayback Machine angl Sparse Vector Autoregressive Modeling 2 serpnya 2017 u Wayback Machine angl