Мініміза́ція емпіри́чного ри́зику (МЕР, англ. empirical risk minimization, ERM) — це принцип у теорії статистичного навчання, який визначає сімейство алгоритмів навчання, і застосовується для отримування теоретичних меж продуктивності алгоритмів навчання.
Передумови
Розгляньмо наступну ситуацію, яка є загальною постановкою для багатьох задач керованого навчання. Ми маємо два простори об'єктів, та , і хотіли би навчитися функції (яку часто називають гіпотезою, англ. hypothesis), яка видає об'єкт для заданого . Для здійснення цього ми маємо у своєму розпорядження тренувальний набір (англ. training set) із невеликої кількості зразків , де є входом, а є відповідним відгуком, який ми хотіли би отримувати від .
Висловлюючись формальніше, ми припускаємо, що існує спільний розподіл імовірності над та , і що тренувальний набір складається з зразків , взятих н. о. р. із . Зауважте, що припущення про спільний розподіл імовірності дозволяє нам моделювати невизначеність у передбаченнях (наприклад, від шуму в даних), оскільки є не детермінованою функцією , а радше випадковою змінною з умовним розподілом для зафіксованого .
Ми також припускаємо, що нам було надано невід'ємну дійснозначну функцію втрат , яка вимірює, наскільки передбачення гіпотези відрізняється від справжнього виходу . Тоді [en], пов'язаний із гіпотезою , визначається як математичне сподівання функції втрат:
В теорії зазвичай використовується функція втрат 0-1: , де є індикаторним позначенням.
Кінцевою метою алгоритму навчання є знайти гіпотезу серед зафіксованого класу функцій , для якої ризик є мінімальним:
Мінімізація емпіричного ризику
В загальному випадку ризик не може бути обчислено, оскільки розподіл не є відомим алгоритмові навчання (цю ситуацію називають ). Проте ми можемо обчислювати наближення, яке називається емпіричним ризиком (англ. empirical risk), шляхом усереднення функції втрат на тренувальному наборі:
Принцип емпіричної мінімізації ризику стверджує, що алгоритм навчання повинен вибрати таку гіпотезу , яка мінімізує емпіричний ризик:
Таким чином, алгоритм навчання, визначений принципом МЕР, полягає у розв'язання наведеної вище задачі оптимізації.
Властивості
Цей розділ потребує доповнення. (листопад 2016) |
Обчислювальна складність
Відомо, що мінімізація емпіричного ризику для задачі класифікації з функцією втрат 0-1 є NP-складною задачею, навіть для таких відносно простих класів функцій, як лінійні класифікатори. Проте вона може розв'язуватися ефективно, коли мінімальний емпіричний ризик є нульовим, тобто дані є лінійно роздільними.
На практиці алгоритми машинного навчання впоруються з цим, або застосовуючи опуклу оптимізацію до функції втрат 0-1 (як у заві́сних втратах для ОВМ), що простіше оптимізувати, або формулюючи припущення про розподіл (і відтак перестаючи бути алгоритмами агностичного навчання, до яких застосовується наведений вище результат).
Примітки
- V. Vapnik (1992). Principles of Risk Minimization for Learning Theory. [ 4 серпня 2016 у Wayback Machine.]
- V. Feldman, V. Guruswami, P. Raghavendra and Yi Wu (2009). Agnostic Learning of Monomials by Halfspaces is Hard. [ 22 лютого 2012 у Wayback Machine.] (Див. саму працю та посилання в ній) (англ.)
Література
- Vapnik, V. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag. ISBN . (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Minimiza ciya empiri chnogo ri ziku MER angl empirical risk minimization ERM ce princip u teoriyi statistichnogo navchannya yakij viznachaye simejstvo algoritmiv navchannya i zastosovuyetsya dlya otrimuvannya teoretichnih mezh produktivnosti algoritmiv navchannya PeredumoviRozglyanmo nastupnu situaciyu yaka ye zagalnoyu postanovkoyu dlya bagatoh zadach kerovanogo navchannya Mi mayemo dva prostori ob yektiv X displaystyle X ta Y displaystyle Y i hotili bi navchitisya funkciyi h X Y displaystyle h X to Y yaku chasto nazivayut gipotezoyu angl hypothesis yaka vidaye ob yekt y Y displaystyle y in Y dlya zadanogo x X displaystyle x in X Dlya zdijsnennya cogo mi mayemo u svoyemu rozporyadzhennya trenuvalnij nabir angl training set iz nevelikoyi kilkosti zrazkiv x 1 y 1 x m y m displaystyle x 1 y 1 ldots x m y m de x i X displaystyle x i in X ye vhodom a y i Y displaystyle y i in Y ye vidpovidnim vidgukom yakij mi hotili bi otrimuvati vid h x i displaystyle h x i Vislovlyuyuchis formalnishe mi pripuskayemo sho isnuye spilnij rozpodil imovirnosti P x y displaystyle P x y nad X displaystyle X ta Y displaystyle Y i sho trenuvalnij nabir skladayetsya z m displaystyle m zrazkiv x 1 y 1 x m y m displaystyle x 1 y 1 ldots x m y m vzyatih n o r iz P x y displaystyle P x y Zauvazhte sho pripushennya pro spilnij rozpodil imovirnosti dozvolyaye nam modelyuvati neviznachenist u peredbachennyah napriklad vid shumu v danih oskilki y displaystyle y ye ne determinovanoyu funkciyeyu x displaystyle x a radshe vipadkovoyu zminnoyu z umovnim rozpodilom P y x displaystyle P y x dlya zafiksovanogo x displaystyle x Mi takozh pripuskayemo sho nam bulo nadano nevid yemnu dijsnoznachnu funkciyu vtrat L y y displaystyle L hat y y yaka vimiryuye naskilki peredbachennya gipotezi y displaystyle hat y vidriznyayetsya vid spravzhnogo vihodu y displaystyle y Todi en pov yazanij iz gipotezoyu h x displaystyle h x viznachayetsya yak matematichne spodivannya funkciyi vtrat R h E L h x y L h x y d P x y displaystyle R h mathbf E L h x y int L h x y dP x y V teoriyi zazvichaj vikoristovuyetsya funkciya vtrat 0 1 L y y I y y displaystyle L hat y y I hat y neq y de I displaystyle I dots ye indikatornim poznachennyam Kincevoyu metoyu algoritmu navchannya ye znajti gipotezu h displaystyle h sered zafiksovanogo klasu funkcij H displaystyle mathcal H dlya yakoyi rizik R h displaystyle R h ye minimalnim h arg min h H R h displaystyle h arg min h in mathcal H R h Minimizaciya empirichnogo rizikuV zagalnomu vipadku rizik R h displaystyle R h ne mozhe buti obchisleno oskilki rozpodil P x y displaystyle P x y ne ye vidomim algoritmovi navchannya cyu situaciyu nazivayut Prote mi mozhemo obchislyuvati nablizhennya yake nazivayetsya empirichnim rizikom angl empirical risk shlyahom userednennya funkciyi vtrat na trenuvalnomu nabori R emp h 1 m i 1 m L h x i y i displaystyle R text emp h frac 1 m sum i 1 m L h x i y i Princip empirichnoyi minimizaciyi riziku stverdzhuye sho algoritm navchannya povinen vibrati taku gipotezu h displaystyle hat h yaka minimizuye empirichnij rizik h arg min h H R emp h displaystyle hat h arg min h in mathcal H R text emp h Takim chinom algoritm navchannya viznachenij principom MER polyagaye u rozv yazannya navedenoyi vishe zadachi optimizaciyi VlastivostiCej rozdil potrebuye dopovnennya listopad 2016 Obchislyuvalna skladnist Vidomo sho minimizaciya empirichnogo riziku dlya zadachi klasifikaciyi z funkciyeyu vtrat 0 1 ye NP skladnoyu zadacheyu navit dlya takih vidnosno prostih klasiv funkcij yak linijni klasifikatori Prote vona mozhe rozv yazuvatisya efektivno koli minimalnij empirichnij rizik ye nulovim tobto dani ye linijno rozdilnimi Na praktici algoritmi mashinnogo navchannya vporuyutsya z cim abo zastosovuyuchi opuklu optimizaciyu do funkciyi vtrat 0 1 yak u zavi snih vtratah dlya OVM sho prostishe optimizuvati abo formulyuyuchi pripushennya pro rozpodil P x y displaystyle P x y i vidtak perestayuchi buti algoritmami agnostichnogo navchannya do yakih zastosovuyetsya navedenij vishe rezultat PrimitkiV Vapnik 1992 Principles of Risk Minimization for Learning Theory 4 serpnya 2016 u Wayback Machine V Feldman V Guruswami P Raghavendra and Yi Wu 2009 Agnostic Learning of Monomials by Halfspaces is Hard 22 lyutogo 2012 u Wayback Machine Div samu pracyu ta posilannya v nij angl LiteraturaVapnik V 2000 The Nature of Statistical Learning Theory Information Science and Statistics Springer Verlag ISBN 978 0 387 98780 4 angl