Ця стаття містить , але походження окремих тверджень через брак . (September 2016) |
Ця стаття потребує додаткових для поліпшення її . (February 2010) |
Обира́ння моде́лі (англ. model selection) — задача обирання статистичної моделі з множини моделей-кандидатів на заданих даних. В найпростіших випадках розглядають вже наявний набір даних. Проте до цієї задачі входить і планування таких експериментів, щоби збирані дані добре підходили для задачі обирання моделі. За заданих моделей-кандидатів подібної передбачувальної або пояснювальної сили найкращим вибором, швидше за все, буде найпростіша модель.
Конісі та Кітагава, (2008, с. 75) заявляють, що «Більшість задач у статистичному висновуванні можна розглядати як задачі, пов'язані зі статистичним моделюванням». Пов'язано з цим, Кокс, (2006, с. 197) сказав: «Як здійснюється перенесення з моделі предметної області на статистичну модель, часто є найкритичнішою частиною аналізу». Вибір моделі може також стосуватися завдання вибору кількох моделей з великого набору обчислювальних моделей з метою ухвалення рішення або оптимізації в умовах невизначеності.
Введення
У своєму найпростішому вигляді, обирання моделі є однією з основних задач наукового дослідження. Визначення принципу, який пояснює ряд спостережень, часто безпосередньо пов'язано з математичною моделлю, що передбачує ці спостереження. Наприклад, коли Галілей виконував свої експерименти з похилою площиною, він показував, що рух куль відповідав параболі, передбаченій його моделлю.
Як хоча би почати обирати найкращу модель з незліченного числа можливих механізмів та процесів, що могли породити дані? Загальний математичний підхід полягає у виборі моделі серед множини кандидатів; цю множину мусить обрати дослідник. Часто використовують прості моделі, такі як поліноміальні, принаймні спочатку. Бернем та Андерсон, (2002) у своїй книзі підкреслюють важливість обирання моделі на основі правильних математичних принципів, таких як розуміння феноменологічних процесів або механізмів (наприклад, хімічних реакцій), що лежать в основі даних.
Щойно обрано множину моделей-кандидатів, статистичний аналіз дає нам можливість обирати найкращу з них. Розуміння того, що таке найкраща, є спірним. Добра методика обирання моделі балансуватиме між допасованістю та простотою. Складніші моделі матимуть кращу здатність допасовувати свою форму до даних (наприклад, многочлен п'ятого степеня може точно допасуватися до шести точок), але ці додаткові параметри можуть не представляти нічого корисного. (Можливо, ці шість точок насправді просто випадково розкидано по прямій ліній.) Допасованість, як правило, визначають застосуванням підходу відношення правдоподібностей, або його наближення, що веде до критерію хі-квадрат. Складність, як правило, вимірюють шляхом підрахунку числа параметрів моделі.
Методики обирання моделі можна розглядати як оцінки деякої фізичної величини, такої як ймовірність моделі, що виробляє задані дані. Важливими мірами якості цієї оцінки є як зсув, так і дисперсія, також розглядають й [en].
Стандартним прикладом обирання моделі є [en], в якому для заданої множини точок та інших знань про обстановку (наприклад, що точки є результатом НОР-вибірки) ми мусимо обирати криву, яка описує функцію, що породила ці точки.
Методи обирання множини моделей-кандидатів
Критерії для обирання моделі
Цей розділ має вигляд переліку, який краще подати . (червень 2017) |
- Баєсів інформаційний критерій
- Інформаційний критерій Акаіке
- [en]
- Коефіцієнт Баєса
- Алгоритмічна теорія інформації
- [en]
- Перевірка відношенням правдоподібностей — статистичний тест, що використовують для перевірки обмежень параметрів статистичних моделей, оцінених на основі вибіркових даних.
- Перехресне затверджування
- [en]
- [en]
- [en]
- [en] — критерій вибору статистичних моделей щодо їх ефективності для заданого параметра
- [en] — інформаційний критерій широкого застосування
Найширше вживаними критеріями є (i) інформаційний критерій Акаіке та (ii) коефіцієнт Баєса та/або баєсів інформаційний критерій (який до певної міри наближує коефіцієнт Баєса).
Див. також
- [en]
- [en]
- (Ґратковий пошук)
- Дилема зсуву-дисперсії
- [en]
- [en]
- Лезо Оккама
- [en]
- Наукове моделювання
- Оптимальний план експерименту
- Оптимізація гіперпараметрів
- [en]
- [en]
- [en]
Джерела
- Aho, K.; Derryberry, D.; Peterson, T. (2014), Model selection for ecologists: the worldviews of AIC and BIC, Ecology, 95: 631—636, doi:10.1890/13-1452.1. (англ.)
- Anderson, D.R. (2008). Model Based Inference in the Life Sciences. Springer. (англ.)
- Ando, T. (2010). Bayesian Model Selection and Statistical Modeling. CRC Press. (англ.)
- (2001). Statistical modeling: the two cultures. [en]. 16: 199—231. doi:10.1214/ss/1009213726. (англ.)
- Burnham, K.P.; Anderson, D.R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach (вид. 2nd). Springer-Verlag. ISBN . (англ.) [Це має понад 31000 цитувань на Google Scholar.]
- Chamberlin, T.C. (1890). The method of multiple working hypotheses. Science. 15: 93. (передруковано 1965, Science 148: 754–759 .) (англ.)
- Claeskens, G. (2016), Statistical model choice (PDF), Annual Review of Statistics and Its Application, 3: 233—256, doi:10.1146/annurev-statistics-041715-033413[недоступне посилання з квітня 2019]. (англ.)
- Claeskens, G.; (2008). Model Selection and Model Averaging. Cambridge University Press. (англ.)
- (2006). Principles of Statistical Inference. Cambridge University Press. (англ.)
- Konishi, S.; Kitagawa, G. (2008), Information Criteria and Statistical Modeling, Springer. (англ.)
- Lahiri, P. (2001). Model Selection. [en]. (англ.)
- Leeb, H.; Pötscher, B. M. (2009). Model selection. У Anderson, T. G. (ред.). Handbook of Financial Time Series. Springer. с. 889—925. doi:10.1007/978-3-540-71297-8_39. (англ.)
- Lukacs, P. M.; Thompson, W. L.; Kendall, W. L.; Gould, W. R.; Doherty, P. F. Jr.; Burnham, K. P.; Anderson, D. R. (2007), Concerns regarding a call for pluralism of information theory and hypothesis testing, Journal of Applied Ecology, 44 (2): 456—460, doi:10.1111/j.1365-2664.2006.01267.x. (англ.)
- Massart, P. (2007). Concentration Inequalities and Model Selection. Springer. (англ.)
- Shmueli, G. (2010), To explain or to predict?, [en], 25: 289-310, doi:10.1214/10-STS330, MR 2791669
{{}}
: Обслуговування CS1: Сторінки з MR з іншим форматом (). (англ.) - Wit, E.; van den Heuvel, E.; Romeijn, J.-W. (2012), ‘All models are wrong...’: an introduction to model uncertainty (PDF), Statistica Neerlandica, 66: 217—236, doi:10.1111/j.1467-9574.2012.00530.x. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Pro algoritmichni pidhodi do obirannya modeli v mashinnomu navchanni div Optimizaciya giperparametriv Cya stattya mistit perelik posilan ale pohodzhennya okremih tverdzhen zalishayetsya nezrozumilim cherez brak vnutrishnotekstovih dzherel vinosok Bud laska dopomozhit polipshiti cyu stattyu peretvorivshi dzherela z pereliku posilan na dzherela vinoski u samomu teksti statti Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki September 2016 Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno February 2010 Obira nnya mode li angl model selection zadacha obirannya statistichnoyi modeli z mnozhini modelej kandidativ na zadanih danih V najprostishih vipadkah rozglyadayut vzhe nayavnij nabir danih Prote do ciyeyi zadachi vhodit i planuvannya takih eksperimentiv shobi zbirani dani dobre pidhodili dlya zadachi obirannya modeli Za zadanih modelej kandidativ podibnoyi peredbachuvalnoyi abo poyasnyuvalnoyi sili najkrashim viborom shvidshe za vse bude najprostisha model Konisi ta Kitagava 2008 s 75 zayavlyayut sho Bilshist zadach u statistichnomu visnovuvanni mozhna rozglyadati yak zadachi pov yazani zi statistichnim modelyuvannyam Pov yazano z cim Koks 2006 s 197 skazav Yak zdijsnyuyetsya perenesennya z modeli predmetnoyi oblasti na statistichnu model chasto ye najkritichnishoyu chastinoyu analizu Vibir modeli mozhe takozh stosuvatisya zavdannya viboru kilkoh modelej z velikogo naboru obchislyuvalnih modelej z metoyu uhvalennya rishennya abo optimizaciyi v umovah neviznachenosti VvedennyaCikl naukovogo sposterezhennya U svoyemu najprostishomu viglyadi obirannya modeli ye odniyeyu z osnovnih zadach naukovogo doslidzhennya Viznachennya principu yakij poyasnyuye ryad sposterezhen chasto bezposeredno pov yazano z matematichnoyu modellyu sho peredbachuye ci sposterezhennya Napriklad koli Galilej vikonuvav svoyi eksperimenti z pohiloyu ploshinoyu vin pokazuvav sho ruh kul vidpovidav paraboli peredbachenij jogo modellyu Yak hocha bi pochati obirati najkrashu model z nezlichennogo chisla mozhlivih mehanizmiv ta procesiv sho mogli poroditi dani Zagalnij matematichnij pidhid polyagaye u vibori modeli sered mnozhini kandidativ cyu mnozhinu musit obrati doslidnik Chasto vikoristovuyut prosti modeli taki yak polinomialni prinajmni spochatku Bernem ta Anderson 2002 u svoyij knizi pidkreslyuyut vazhlivist obirannya modeli na osnovi pravilnih matematichnih principiv takih yak rozuminnya fenomenologichnih procesiv abo mehanizmiv napriklad himichnih reakcij sho lezhat v osnovi danih Shojno obrano mnozhinu modelej kandidativ statistichnij analiz daye nam mozhlivist obirati najkrashu z nih Rozuminnya togo sho take najkrasha ye spirnim Dobra metodika obirannya modeli balansuvatime mizh dopasovanistyu ta prostotoyu Skladnishi modeli matimut krashu zdatnist dopasovuvati svoyu formu do danih napriklad mnogochlen p yatogo stepenya mozhe tochno dopasuvatisya do shesti tochok ale ci dodatkovi parametri mozhut ne predstavlyati nichogo korisnogo Mozhlivo ci shist tochok naspravdi prosto vipadkovo rozkidano po pryamij linij Dopasovanist yak pravilo viznachayut zastosuvannyam pidhodu vidnoshennya pravdopodibnostej abo jogo nablizhennya sho vede do kriteriyu hi kvadrat Skladnist yak pravilo vimiryuyut shlyahom pidrahunku chisla parametriv modeli Metodiki obirannya modeli mozhna rozglyadati yak ocinki deyakoyi fizichnoyi velichini takoyi yak jmovirnist modeli sho viroblyaye zadani dani Vazhlivimi mirami yakosti ciyeyi ocinki ye yak zsuv tak i dispersiya takozh rozglyadayut j en Standartnim prikladom obirannya modeli ye en v yakomu dlya zadanoyi mnozhini tochok ta inshih znan pro obstanovku napriklad sho tochki ye rezultatom NOR vibirki mi musimo obirati krivu yaka opisuye funkciyu sho porodila ci tochki Metodi obirannya mnozhini modelej kandidativRozviduvalnij analiz Naukovij metodKriteriyi dlya obirannya modeliCej rozdil maye viglyad pereliku yakij krashe podati prozoyu Vi mozhete dopomogti viklasti spisok prozoyu de ce dorechno Oznajomtesya z dovidkoyu z redaguvannya cherven 2017 Bayesiv informacijnij kriterij Informacijnij kriterij Akaike en Koeficiyent Bayesa Algoritmichna teoriya informaciyi Minimalna dovzhina opisu Minimalna dovzhina povidomlennya en Perevirka vidnoshennyam pravdopodibnostej statistichnij test sho vikoristovuyut dlya perevirki obmezhen parametriv statistichnih modelej ocinenih na osnovi vibirkovih danih Perehresne zatverdzhuvannya en en en en kriterij viboru statistichnih modelej shodo yih efektivnosti dlya zadanogo parametra en informacijnij kriterij shirokogo zastosuvannya Najshirshe vzhivanimi kriteriyami ye i informacijnij kriterij Akaike ta ii koeficiyent Bayesa ta abo bayesiv informacijnij kriterij yakij do pevnoyi miri nablizhuye koeficiyent Bayesa Div takozh en en Gratkovij poshuk Dilema zsuvu dispersiyi en en Lezo Okkama en Naukove modelyuvannya Optimalnij plan eksperimentu Optimizaciya giperparametriv en en en DzherelaAho K Derryberry D Peterson T 2014 Model selection for ecologists the worldviews of AIC and BIC Ecology 95 631 636 doi 10 1890 13 1452 1 angl Anderson D R 2008 Model Based Inference in the Life Sciences Springer angl Ando T 2010 Bayesian Model Selection and Statistical Modeling CRC Press angl 2001 Statistical modeling the two cultures en 16 199 231 doi 10 1214 ss 1009213726 angl Burnham K P Anderson D R 2002 Model Selection and Multimodel Inference A Practical Information Theoretic Approach vid 2nd Springer Verlag ISBN 0 387 95364 7 angl Ce maye ponad 31000 cituvan na Google Scholar Chamberlin T C 1890 The method of multiple working hypotheses Science 15 93 peredrukovano 1965 Science 148 754 759 angl Claeskens G 2016 Statistical model choice PDF Annual Review of Statistics and Its Application 3 233 256 doi 10 1146 annurev statistics 041715 033413 nedostupne posilannya z kvitnya 2019 angl Claeskens G 2008 Model Selection and Model Averaging Cambridge University Press angl 2006 Principles of Statistical Inference Cambridge University Press angl Konishi S Kitagawa G 2008 Information Criteria and Statistical Modeling Springer angl Lahiri P 2001 Model Selection en angl Leeb H Potscher B M 2009 Model selection U Anderson T G red Handbook of Financial Time Series Springer s 889 925 doi 10 1007 978 3 540 71297 8 39 angl Lukacs P M Thompson W L Kendall W L Gould W R Doherty P F Jr Burnham K P Anderson D R 2007 Concerns regarding a call for pluralism of information theory and hypothesis testing Journal of Applied Ecology 44 2 456 460 doi 10 1111 j 1365 2664 2006 01267 x angl Massart P 2007 Concentration Inequalities and Model Selection Springer angl Shmueli G 2010 To explain or to predict en 25 289 310 doi 10 1214 10 STS330 MR 2791669 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Citation title Shablon Citation citation a Obslugovuvannya CS1 Storinki z MR z inshim formatom posilannya angl Wit E van den Heuvel E Romeijn J W 2012 All models are wrong an introduction to model uncertainty PDF Statistica Neerlandica 66 217 236 doi 10 1111 j 1467 9574 2012 00530 x angl