У застосуваннях керованого навчання в машинному навчанні та теорії статистичного навчання, по́хибка узага́льнення (англ. generalization error, відома також як по́хибка за ме́жами ви́бірки, англ. out-of-sample error) — це міра того, наскільки точно алгоритм здатен передбачувати значення виходів для не бачених раніше даних. Оскільки навчальні алгоритми обчислюються на скінченних вибірках, обчислення навчальних алгоритмів може бути чутливим до [en]. В результаті, вимірювання похибки передбачування на поточних даних може не давати достатньо інформації про передбачувальну здатність на даних нових. Похибку узагальнення може бути мінімізовано униканням перенавчання в навчальних алгоритмах. Продуктивність алгоритму машинного навчання вимірюється шляхом відкладання на графіку значень похибки узагальнення протягом процесу навчання, що називається кривими навчання.
Визначення
В задачі навчання метою є розробка функції , яка передбачує вихідні значення на основі деяких вхідних даних . Очікуваною похибкою певної функції над усіма можливими значеннями та є
де позначає функцію втрат, а є невідомим спільним розподілом імовірності для та .
Не знаючи цей спільний розподіл імовірності, неможливо обчислити . Натомість, ми можемо обчислювати емпіричну похибку на даних вибірки. Для заданих точок даних емпіричною похибкою є
Похибка узагальнення є різницею між очікуваною та емпіричною похибками. Вона є різницею між похибкою на тренувальному наборі, та похибкою на розподілі ймовірності, що лежить в основі. Вона визначається як
Про алгоритм кажуть, що він узагальнюється, якщо
Оскільки для невідомого розподілу ймовірності обчислено бути не може, то не може бути обчислено й похибку узагальнення. Натомість, метою багатьох задач у теорії статистичного навчання є обмежити або схарактеризувати похибку узагальнення в імовірності:
Тобто, метою є схарактеризувати ймовірність того, що похибка узагальнення є меншою за деяку межу похибки (відому як темп навчання, англ. learning rate, і в цілому залежну від та ).
Стосунок до стійкості
Для багатьох типів алгоритмів було показано, що алгоритм має межі узагальнення, якщо він відповідає певним критеріям [en]. Зокрема, якщо алгоритм є симетричним (послідовність входів не впливає на результат), має обмежені втрати та відповідає двом умовам стійкості, то він узагальнюватиметься. Перша умова стійкості, стійкість перехресного затверджування з виключенням по одному (англ. leave-one-out cross-validation stability), каже, що для стійкості похибка передбачення для кожної точки даних при застосуванні перехресного затверджування з виключенням по одному мусить збігатися до нуля при . Друга умова, стійкість похибки очікування до виключення по одному (англ. expected-to-leave-one-out error stability, відома також як стійкість гіпотези при дії в нормі ), виконується тоді, коли передбачення для не включеної точки не змінюється при усуненні однієї точки з тренувального набору.
Ці умови може бути формалізовано наступним чином:
Стійкість перехресного затверджування з виключенням по одному
Алгоритм має стійкість , якщо для кожного існують такі та , що
і та прямують до нуля при прямуванні до нескінченності.
Стійкість похибки очікування до виключення по одному
Алгоритм має стійкість , якщо для кожного існують такі та , що
де та прямують до нуля при .
Для стійкості виключення по одному в нормі це є тим самим, що й стійкість гіпотези
де прямує до нуля при прямуванні до нескінченності.
Алгоритми з доведеною стійкістю
Стосовно ряду алгоритмів було доведено, що вони є стійкими, і, в результаті, мають межі на своїх похибках узагальнення. Перелік цих алгоритмів та праць, що довели стійкість, є [en].
Стосунок до перенавчання
Поняття похибки узагальнення та перенавчання тісно пов'язані. Перенавчання стається тоді, коли навчена функція стає чутливою до шуму в вибірці. В результаті ця функція працюватиме добре на тренувальному наборі, але не працюватиме добре на інших даних зі спільного розподілу ймовірності та . Таким чином, що більше перенавчання стається, то більшою є похибка узагальнення.
Величину перенавчання може бути перевірено застосуванням методів перехресного затверджування, які розділюють вибірку на імітовані тренувальні та випробувальні вибірки. Потім модель тренують на тренувальній вибірці, й оцінюють на випробувальній. Випробувальна вибірка є не баченою алгоритмом заздалегідь, і тому являє собою випадкову вибірку зі спільного розподілу ймовірності та . Ця випробувальна вибірка дозволяє отримувати наближення очікуваної похибки, і, як результат, отримувати наближення конкретного вигляду похибки узагальнення.
Існує багато алгоритмів для запобігання перенавчанню. Алгоритм мінімізації може штрафувати складніші функції (він відомий як регуляризація Тихонова), або простір гіпотез може бути обмежено, або явно виглядом функцій, або додаванням обмежень до функції мінімізації (регуляризація Іванова).
Підхід, що полягає в пошуку функції, яка не перенавчається, суперечить меті пошуку функції, яка є достатньо складною, щоби схоплювати особливі характеристики даних. Це відоме як компроміс зсуву та дисперсії. Збереження функції простою для запобігання перенавчанню може вносити зсув в отримувані в результаті передбачування, в той час як надання їй можливості ставати складнішою веде до перенавчання й вищої дисперсії в передбаченнях. Мінімізовувати й те, і друге одночасно — неможливо.
Примітки
- Y S. Abu-Mostafa, M.Magdon-Ismail, and H.-T. Lin (2012) Learning from Data, AMLBook Press. (англ.)
- Mukherjee, S.; Niyogi, P.; Poggio, T.; Rifkin., R. M. (2006). Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization (PDF). Adv. Comput. Math. 25 (1-3): 161—193. (англ.)
Література
- Bousquet, O., S. Boucheron and G. Lugosi. Introduction to Statistical Learning Theory. Advanced Lectures on Machine Learning Lecture Notes in Artificial Intelligence 3176, 169-207. (Eds.) Bousquet, O., U. von Luxburg and G. Ratsch, Springer, Heidelberg, Germany (2004) (англ.)
- Bousquet, O. and A. Elisseef (2002), Stability and Generalization, Journal of Machine Learning Research, 499-526. (англ.)
- Devroye L. , L. Gyorfi, and G. Lugosi (1996). A Probabilistic Theory of Pattern Recognition. Springer-Verlag. . (англ.)
- Poggio T. and S. Smale. The Mathematics of Learning: Dealing with Data. Notices of the AMS, 2003 (англ.)
- Vapnik, V. (2000). The Nature of Statistical Learning Theory. Information Science and Statistics. Springer-Verlag. . (англ.)
- Bishop, C.M. (1995), Neural Networks for Pattern Recognition, Oxford: Oxford University Press, especially section 6.4. (англ.)
- Finke, M., and Müller, K.-R. (1994), "Estimating a-posteriori probabilities using stochastic network models," in Mozer, Smolensky, Touretzky, Elman, & Weigend, eds., Proceedings of the 1993 Connectionist Models Summer School, Hillsdale, NJ: Lawrence Erlbaum Associates, pp. 324–331. (англ.)
- Geman, S., Bienenstock, E. and Doursat, R. (1992), "Neural Networks and the Bias/Variance Dilemma", Neural Computation, 4, 1-58. (англ.)
- Husmeier, D. (1999), Neural Networks for Conditional Probability Estimation: Forecasting Beyond Point Predictions, Berlin: Springer Verlag, . (англ.)
- McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Models, 2nd ed., London: Chapman & Hall. (англ.)
- Moody, J.E. (1992), "The Effective Number of Parameters: An Analysis of Generalization and Regularization in Nonlinear Learning Systems", in Moody, J.E., Hanson, S.J., and Lippmann, R.P., Advances in Neural Information Processing Systems 4, 847-854. (англ.)
- Ripley, B.D. (1996) Pattern Recognition and Neural Networks, Cambridge: Cambridge University Press. (англ.)
- Rohwer, R., and van der Rest, J.C. (1996), "Minimum description length, regularization, and multimodal data," Neural Computation, 8, 595-609. (англ.)
- Rojas, R. (1996), "A short proof of the posterior probability property of classifier neural networks," Neural Computation, 8, 41-43. (англ.)
- White, H. (1990), "Connectionist Nonparametric Regression: Multilayer Feedforward Networks Can Learn Arbitrary Mappings," Neural Networks, 3, 535-550. Reprinted in White (1992). (англ.)
- White, H. (1992a), "Nonparametric Estimation of Conditional Quantiles Using Neural Networks," in Page, C. and Le Page, R. (eds.), Proceedings of the 23rd Sympsium on the Interface: Computing Science and Statistics, Alexandria, VA: American Statistical Association, pp. 190–199. Reprinted in White (1992b). (англ.)
- White, H. (1992b), Artificial Neural Networks: Approximation and Learning Theory, Blackwell. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U zastosuvannyah kerovanogo navchannya v mashinnomu navchanni ta teoriyi statistichnogo navchannya po hibka uzaga lnennya angl generalization error vidoma takozh yak po hibka za me zhami vi birki angl out of sample error ce mira togo naskilki tochno algoritm zdaten peredbachuvati znachennya vihodiv dlya ne bachenih ranishe danih Oskilki navchalni algoritmi obchislyuyutsya na skinchennih vibirkah obchislennya navchalnih algoritmiv mozhe buti chutlivim do en V rezultati vimiryuvannya pohibki peredbachuvannya na potochnih danih mozhe ne davati dostatno informaciyi pro peredbachuvalnu zdatnist na danih novih Pohibku uzagalnennya mozhe buti minimizovano unikannyam perenavchannya v navchalnih algoritmah Produktivnist algoritmu mashinnogo navchannya vimiryuyetsya shlyahom vidkladannya na grafiku znachen pohibki uzagalnennya protyagom procesu navchannya sho nazivayetsya krivimi navchannya ViznachennyaDiv takozh Teoriya statistichnogo navchannya V zadachi navchannya metoyu ye rozrobka funkciyi f x displaystyle f x yaka peredbachuye vihidni znachennya y displaystyle y na osnovi deyakih vhidnih danih x displaystyle x Ochikuvanoyu pohibkoyu I f n displaystyle I f n pevnoyi funkciyi f n displaystyle f n nad usima mozhlivimi znachennyami x displaystyle x ta y displaystyle y ye I f n X Y V f n x y r x y d x d y displaystyle I f n int X times Y V f n x y rho x y dxdy de V displaystyle V poznachaye funkciyu vtrat a r x y displaystyle rho x y ye nevidomim spilnim rozpodilom imovirnosti dlya x displaystyle x ta y displaystyle y Ne znayuchi cej spilnij rozpodil imovirnosti nemozhlivo obchisliti I f displaystyle I f Natomist mi mozhemo obchislyuvati empirichnu pohibku na danih vibirki Dlya zadanih n displaystyle n tochok danih empirichnoyu pohibkoyu ye I S f n 1 n i 1 n V f n x i y i displaystyle I S f n frac 1 n sum i 1 n V f n x i y i Pohibka uzagalnennya ye rizniceyu mizh ochikuvanoyu ta empirichnoyu pohibkami Vona ye rizniceyu mizh pohibkoyu na trenuvalnomu nabori ta pohibkoyu na rozpodili jmovirnosti sho lezhit v osnovi Vona viznachayetsya yak G I f n I S f n displaystyle G I f n I S f n Pro algoritm kazhut sho vin uzagalnyuyetsya yaksho lim n I f n I S f n 0 displaystyle lim n rightarrow infty I f n I S f n 0 Oskilki I f n displaystyle I f n dlya nevidomogo rozpodilu jmovirnosti obchisleno buti ne mozhe to ne mozhe buti obchisleno j pohibku uzagalnennya Natomist metoyu bagatoh zadach u teoriyi statistichnogo navchannya ye obmezhiti abo sharakterizuvati pohibku uzagalnennya v imovirnosti P G P I f n I S f n ϵ 1 d n displaystyle P G P I f n I S f n leq epsilon geq 1 delta n Tobto metoyu ye sharakterizuvati jmovirnist 1 d n displaystyle 1 delta n togo sho pohibka uzagalnennya ye menshoyu za deyaku mezhu pohibki ϵ displaystyle epsilon vidomu yak temp navchannya angl learning rate i v cilomu zalezhnu vid d displaystyle delta ta n displaystyle n Stosunok do stijkostiDlya bagatoh tipiv algoritmiv bulo pokazano sho algoritm maye mezhi uzagalnennya yaksho vin vidpovidaye pevnim kriteriyam en Zokrema yaksho algoritm ye simetrichnim poslidovnist vhodiv ne vplivaye na rezultat maye obmezheni vtrati ta vidpovidaye dvom umovam stijkosti to vin uzagalnyuvatimetsya Persha umova stijkosti stijkist perehresnogo zatverdzhuvannya z viklyuchennyam po odnomu angl leave one out cross validation stability kazhe sho dlya stijkosti pohibka peredbachennya dlya kozhnoyi tochki danih pri zastosuvanni perehresnogo zatverdzhuvannya z viklyuchennyam po odnomu musit zbigatisya do nulya pri n displaystyle n rightarrow infty Druga umova stijkist pohibki ochikuvannya do viklyuchennya po odnomu angl expected to leave one out error stability vidoma takozh yak stijkist gipotezi pri diyi v normi L 1 displaystyle L 1 vikonuyetsya todi koli peredbachennya dlya ne vklyuchenoyi tochki ne zminyuyetsya pri usunenni odniyeyi tochki z trenuvalnogo naboru Ci umovi mozhe buti formalizovano nastupnim chinom Stijkist perehresnogo zatverdzhuvannya z viklyuchennyam po odnomu Algoritm L displaystyle L maye stijkist C V l o o displaystyle CVloo yaksho dlya kozhnogo n displaystyle n isnuyut taki b C V n displaystyle beta CV n ta d C V n displaystyle delta CV n sho i 1 n P S V f S i z i V f S z i b C V n 1 d C V n displaystyle forall i in 1 n mathbb P S V f S i z i V f S z i leq beta CV n geq 1 delta CV n i b C V n displaystyle beta CV n ta d C V n displaystyle delta CV n pryamuyut do nulya pri pryamuvanni n displaystyle n do neskinchennosti Stijkist pohibki ochikuvannya do viklyuchennya po odnomu Algoritm L displaystyle L maye stijkist E l o o e r r displaystyle Eloo err yaksho dlya kozhnogo n displaystyle n isnuyut taki b E L m displaystyle beta EL m ta d E L m displaystyle delta EL m sho i 1 n P S I f S 1 n i 1 N V f S i z i b E L n 1 d E L n displaystyle forall i in 1 n mathbb P S I f S frac 1 n sum i 1 N V f S i z i leq beta EL n geq 1 delta EL n de b E L n displaystyle beta EL n ta d E L n displaystyle delta EL n pryamuyut do nulya pri n displaystyle n rightarrow infty Dlya stijkosti viklyuchennya po odnomu v normi L 1 displaystyle L 1 ce ye tim samim sho j stijkist gipotezi E S z V f S z V f S i z b H n displaystyle mathbb E S z V f S z V f S i z leq beta H n de b H n displaystyle beta H n pryamuye do nulya pri pryamuvanni n displaystyle n do neskinchennosti Algoritmi z dovedenoyu stijkistyu Stosovno ryadu algoritmiv bulo dovedeno sho voni ye stijkimi i v rezultati mayut mezhi na svoyih pohibkah uzagalnennya Perelik cih algoritmiv ta prac sho doveli stijkist ye en Stosunok do perenavchannyaDiv takozh Perenavchannya Cej malyunok pokazuye vzayemozv yazok mizh perenavchannyam ta pohibkoyu uzagalnennya I fn IS fn Tochki danih bulo porodzheno zi spivvidnoshennya y x iz bilim shumom dodanim do znachen y V livomu stovpchiku sinim kolorom pokazano trenuvalni tochki Do trenuvalnih danih bulo dopasovano funkciyu mnogochlen somogo poryadku V pravomu stovpchiku cyu funkciyu pereviryayut na danih vibranih zi spilnogo rozpodilu y ta x sho lezhit v osnovi U verhnomu ryadku funkciyu dopasovano do vibirkovogo naboru z 10 tochok danih U nizhnomu ryadku funkciyu dopasovano do vibirkovogo naboru zi 100 tochok danih Yak mozhna bachiti dlya malih rozmiriv vibirki ta skladnih funkcij pohibka na trenuvalnomu nabori ye maloyu ale pohibka na rozpodili sho lezhit v osnovi danih ye velikoyu i mi mayemo perenavchannya danih V rezultati pohibka uzagalnennya ye velikoyu Zi zbilshennyam chisla vibirkovih tochok pohibka peredbachennya na trenuvalnih ta perevirnih danih zbigayutsya i pohibka uzagalnennya pryamuye do 0 Ponyattya pohibki uzagalnennya ta perenavchannya tisno pov yazani Perenavchannya stayetsya todi koli navchena funkciya f S displaystyle f S staye chutlivoyu do shumu v vibirci V rezultati cya funkciya pracyuvatime dobre na trenuvalnomu nabori ale ne pracyuvatime dobre na inshih danih zi spilnogo rozpodilu jmovirnosti x displaystyle x ta y displaystyle y Takim chinom sho bilshe perenavchannya stayetsya to bilshoyu ye pohibka uzagalnennya Velichinu perenavchannya mozhe buti perevireno zastosuvannyam metodiv perehresnogo zatverdzhuvannya yaki rozdilyuyut vibirku na imitovani trenuvalni ta viprobuvalni vibirki Potim model trenuyut na trenuvalnij vibirci j ocinyuyut na viprobuvalnij Viprobuvalna vibirka ye ne bachenoyu algoritmom zazdalegid i tomu yavlyaye soboyu vipadkovu vibirku zi spilnogo rozpodilu jmovirnosti x displaystyle x ta y displaystyle y Cya viprobuvalna vibirka dozvolyaye otrimuvati nablizhennya ochikuvanoyi pohibki i yak rezultat otrimuvati nablizhennya konkretnogo viglyadu pohibki uzagalnennya Isnuye bagato algoritmiv dlya zapobigannya perenavchannyu Algoritm minimizaciyi mozhe shtrafuvati skladnishi funkciyi vin vidomij yak regulyarizaciya Tihonova abo prostir gipotez mozhe buti obmezheno abo yavno viglyadom funkcij abo dodavannyam obmezhen do funkciyi minimizaciyi regulyarizaciya Ivanova Pidhid sho polyagaye v poshuku funkciyi yaka ne perenavchayetsya superechit meti poshuku funkciyi yaka ye dostatno skladnoyu shobi shoplyuvati osoblivi harakteristiki danih Ce vidome yak kompromis zsuvu ta dispersiyi Zberezhennya funkciyi prostoyu dlya zapobigannya perenavchannyu mozhe vnositi zsuv v otrimuvani v rezultati peredbachuvannya v toj chas yak nadannya yij mozhlivosti stavati skladnishoyu vede do perenavchannya j vishoyi dispersiyi v peredbachennyah Minimizovuvati j te i druge odnochasno nemozhlivo PrimitkiY S Abu Mostafa M Magdon Ismail and H T Lin 2012 Learning from Data AMLBook Press ISBN 978 1600490064 angl Mukherjee S Niyogi P Poggio T Rifkin R M 2006 Learning theory stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization PDF Adv Comput Math 25 1 3 161 193 angl LiteraturaBousquet O S Boucheron and G Lugosi Introduction to Statistical Learning Theory Advanced Lectures on Machine Learning Lecture Notes in Artificial Intelligence 3176 169 207 Eds Bousquet O U von Luxburg and G Ratsch Springer Heidelberg Germany 2004 angl Bousquet O and A Elisseef 2002 Stability and Generalization Journal of Machine Learning Research 499 526 angl Devroye L L Gyorfi and G Lugosi 1996 A Probabilistic Theory of Pattern Recognition Springer Verlag ISBN 978 0387946184 angl Poggio T and S Smale The Mathematics of Learning Dealing with Data Notices of the AMS 2003 angl Vapnik V 2000 The Nature of Statistical Learning Theory Information Science and Statistics Springer Verlag ISBN 978 0 387 98780 4 angl Bishop C M 1995 Neural Networks for Pattern Recognition Oxford Oxford University Press especially section 6 4 angl Finke M and Muller K R 1994 Estimating a posteriori probabilities using stochastic network models in Mozer Smolensky Touretzky Elman amp Weigend eds Proceedings of the 1993 Connectionist Models Summer School Hillsdale NJ Lawrence Erlbaum Associates pp 324 331 angl Geman S Bienenstock E and Doursat R 1992 Neural Networks and the Bias Variance Dilemma Neural Computation 4 1 58 angl Husmeier D 1999 Neural Networks for Conditional Probability Estimation Forecasting Beyond Point Predictions Berlin Springer Verlag ISBN 1 85233 095 3 angl McCullagh P and Nelder J A 1989 Generalized Linear Models 2nd ed London Chapman amp Hall angl Moody J E 1992 The Effective Number of Parameters An Analysis of Generalization and Regularization in Nonlinear Learning Systems in Moody J E Hanson S J and Lippmann R P Advances in Neural Information Processing Systems 4 847 854 angl Ripley B D 1996 Pattern Recognition and Neural Networks Cambridge Cambridge University Press angl Rohwer R and van der Rest J C 1996 Minimum description length regularization and multimodal data Neural Computation 8 595 609 angl Rojas R 1996 A short proof of the posterior probability property of classifier neural networks Neural Computation 8 41 43 angl White H 1990 Connectionist Nonparametric Regression Multilayer Feedforward Networks Can Learn Arbitrary Mappings Neural Networks 3 535 550 Reprinted in White 1992 angl White H 1992a Nonparametric Estimation of Conditional Quantiles Using Neural Networks in Page C and Le Page R eds Proceedings of the 23rd Sympsium on the Interface Computing Science and Statistics Alexandria VA American Statistical Association pp 190 199 Reprinted in White 1992b angl White H 1992b Artificial Neural Networks Approximation and Learning Theory Blackwell angl