Ця стаття потребує додаткових для поліпшення її . (грудень 2016) |
У статистиці та машинному навчанні одним із найпоширеніших завдань є допасовування «моделі» до набору тренувальних даних таким чином, щоби уможливити здійснення надійних передбачень на загальних даних, на яких не здійснювалося тренування. При перенавчанні (англ. overfitting) статистична модель описує випадкову похибку або шум, замість взаємозв'язку, що лежить в основі даних. Перенавчання виникає тоді, коли модель є занадто складною, такою, що має занадто багато відносно числа спостережень. Перенавчена модель має погану [en] продуктивність, оскільки вона занадто сильно реагує на другорядні відхилення в тренувальних даних.
Можливість перенавчання існує тому, що критерій, який застосовується для тренування моделі, відрізняється від критерію, який застосовується для оцінки її ефективності. Зокрема, модель зазвичай тренують шляхом максимізації її продуктивності на якомусь наборі тренувальних даних. Проте її ефективність визначається не її продуктивністю на тренувальних даних, а її здатністю працювати добре на даних небачених. Перенавчання стається тоді, коли модель починає «запам'ятовувати» тренувальні дані, замість того, щоби «вчитися» узагальненню з тенденції. Як крайній приклад, якщо число параметрів є таким же, або більшим, як число спостережень, то проста модель або процес навчання може відмінно передбачувати тренувальні дані, просто запам'ятовуючи їх повністю, але така модель зазвичай зазнаватиме рішучої невдачі при здійсненні передбачень про нові або небачені дані, оскільки ця проста модель взагалі не навчилася узагальнювати.
Потенціал перенавчання залежить не лише від кількостей параметрів та даних, але й від відповідності структури моделі формі даних, та величини в порівнянні з очікуваним рівнем шуму або похибки в даних.
Навіть коли допасована модель не має надмірного числа параметрів, слід очікувати, що допасований взаємозв'язок працюватиме на новому наборі даних не так добре, як на наборі, використаному для допасовування. Зокрема, значення коефіцієнту детермінації відносно первинних тренувальних даних [en].
Щоби уникати перенавчання, необхідно використовувати додаткові методики (наприклад, перехресне затверджування, регуляризацію, ранню зупинку, [en], баєсові апріорні параметрів або порівняння моделей), які можуть вказувати, коли подальше тренування не даватиме кращого узагальнення. Основою деяких методик є або (1) явно штрафувати занадто складні моделі, або (2) перевіряти здатність моделі до узагальнення шляхом оцінки її продуктивності на наборі даних, не використаному для тренування, який вважається наближенням типових небачених даних, з якими стикатиметься модель.
Гарною аналогією перенавчання задачі є уявити дитину, яка намагається вивчити, що є вікном, а що не є вікном, ми починаємо показувати їй вікна, і вона виявляє на початковому етапі, що всі вікна мають скло та раму, і через них можна дивитися назовні, деякі з них може бути відчинено. Якщо ми продовжимо показувати ті самі вікна, то дитина може також зробити помилковий висновок, що всі вікна є зеленими, і що всі зелені рами є вікнами. Перенавчаючись таким чином цієї задачі.
Машинне навчання
Зазвичай алгоритм навчання тренується з використанням деякого набору «тренувальних даних»: зразкових ситуацій, для яких бажаний вихід є відомим. Метою є, щоби алгоритм також добре працював над передбаченням виходу при подаванні «перевірних даних», які не траплялися під час його тренування.
Перенавчання є застосуванням моделей або процедур, які порушують лезо Оккама, наприклад, включаючи більше регульованих параметрів, ніж є зрештою оптимально, або використовуючи складніший підхід, ніж є зрештою оптимально. Для прикладу завеликого числа регульованих параметрів розгляньмо такий набір даних, де тренувальні дані для y може бути адекватно передбачено лінійною функцією двох залежних змінних. Така функція вимагає лише трьох параметрів (відсікання та двох нахилів). Заміна цієї простої функції новою, складнішою квадратичною функцією, або новою, складнішою лінійною функцією від понад двох залежних змінних, несе ризик: лезо Оккама значить, що будь-яка задана складна функція є апріорі менш імовірною за будь-яку задану просту функцію. Якщо цю нову, складнішу функцію обрано замість простої функції, і якщо не було достатньо великої користі для допасовування до тренувальних даних, щоби протиставити її підвищенню складності, то нова складніша функція «перенавчається» даних, і складна перенавчена функція, швидше за все, працюватиме гірше на перевірних даних за межами тренувального набору, ніж простіша функція, навіть якщо складніша функція працювала добре, або навіть краще, на наборі тренувальному.
При порівнянні різних типів моделей складність не можна вимірювати виключно підрахунком того, скільки параметрів існує в кожній з моделей; мусить також розглядатися й виразність кожного з параметрів. Наприклад, є нетривіальним порівнювати безпосередньо складності нейронної мережі (яка може відстежувати криволінійні взаємозв'язки) з m параметрами, та регресійної моделі з n параметрами.
Перенавчання є особливо ймовірним в тих випадках, коли навчання виконувалося занадто довго, або коли тренувальні зразки є рідкісними, що спричиняє допасовування до дуже особливих випадкових ознак тренувальних даних, які не мають [en] з [en]. В процесі цього перенавчання продуктивність на тренувальних зразках продовжує підвищуватися, тоді як продуктивність на небачених даних стає гіршою.
Як простий приклад розгляньмо базу даних роздрібних купівель, яка включає придбану позицію, покупця, та дату й час купівлі. Нескладно побудувати модель, яка ідеально допасовується до тренувального набору із застосуванням дати й часу купівлі, щоби передбачувати інші ознаки; але ця модель взагалі не узагальнюватиметься на нові дані, оскільки ті минулі часи вже ніколи не настануть.
Як правило, кажуть, що алгоритм навчання перенавчається відносно простішого, якщо він є точнішим у допасовуванні до відомих даних (розумність заднім числом), але менш точним у передбачуванні нових даних (далекоглядність). Перенавчання можна інтуїтивно розуміти з точки зору тієї обставини, що інформацію з усього минулого досвіду може бути поділено на дві групи: інформацію, яка стосується майбутнього, і недоречну інформацію («шум»). За всіх інших рівних умов, що складнішим для передбачування є критерій (тобто, що вищою є невизначеність), то більше шуму, який треба ігнорувати, міститься в минулій інформації. Задача полягає у визначенні того, яку частину ігнорувати. Алгоритм навчання, який знижує шанси допасовування до шуму, називається надійним.
Наслідки
Найочевиднішим наслідком перенавчання є погана продуктивність на перевірному наборі даних. До інших негативних наслідків належать:
- Перенавчена функція схильна вимагати більше інформації про кожен елемент перевірного набору даних, ніж функція оптимальна; збирання цих додаткових непотрібних даних може бути витратним або схильним до помилок, особливо якщо кожну окрему частину інформації потрібно збирати за допомогою людського спостереження та введення даних вручну.
- Складніша, перенавчена функція схильна бути менш переносною, ніж проста. Як одна з крайностей, лінійна регресія з однією змінною є настільки переносною, що, за потреби, може навіть здійснюватися вручну. На протилежній крайності знаходяться моделі, які може бути відтворено лише точним дублюванням цілісної постановки первинного розробника, що ускладнює повторне використання або наукове відтворення.
Регресія
Перенавчання також є проблемою і за межами машинного навчання, у широкому вивченні регресії, включно із регресією, здійснюваною «вручну». В крайньому випадку, якщо є змінних у лінійній регресії з точками даних, то допасована лінія проходитиме точно через всі точки. Існує безліч емпіричних правил для визначення необхідного числа спостережень на кожну незалежну змінну, включно з 10 та 10-15.
Недонавчання
Недонавчання трапляється тоді, коли статистична модель або алгоритм машинного навчання не можуть схопити тенденцію, що лежить в основі даних. Воно трапляється тоді, коли модель або алгоритм не достатньо допасовується до даних. Недонавчання трапляється тоді, коли модель або алгоритм демонструють низьку дисперсію, але високий зсув (на противагу протилежному перенавчанню з високою дисперсією та низьким зсувом). Часто воно є результатом занадто простої моделі.
Див. також
- Компроміс зсуву та дисперсії
- [en]
- Просіювання даних
- Лезо Оккама
- Обирання моделі
- ВЧ-розмірність — вимірює складність моделі навчання. Більша ВЧ-розмірність означає вищий ризик перенавчання.
Примітки
- Everitt B.S. (2002) Cambridge Dictionary of Statistics, CUP. (стаття «Shrinkage») (англ.)
- Hawkins, Douglas M. «The problem of overfitting.» Journal of chemical information and computer sciences 44.1 (2004): 1-12. (англ.)
- Martha K. Smith (13 червня 2014). Overfitting. University of Texas at Austin. Процитовано 31 липня 2016. (англ.)
- Draper, Norman R.; Smith, Harry (1998). Applied regression analysis, 3rd Edition. New York: . ISBN . (англ.)
- Jim Frost (3 вересня 2015). The Danger of Overfitting Regression Models. Процитовано 31 липня 2016. (англ.)
- Cai, Eric (20 березня 2014). . StatBlogs. Архів оригіналу за 29 грудня 2016. Процитовано 31 грудня 2016. (англ.)
Література
- Leinweber, D. J. (2007). Stupid Data Miner Tricks. The Journal of Investing. 16: 15—22. doi:10.3905/joi.2007.681820. (англ.)
- Tetko, I. V.; Livingstone, D. J.; Luik, A. I. (1995). Neural network studies. 1. Comparison of Overfitting and Overtraining (PDF). [en]. 35 (5): 826—833. doi:10.1021/ci00027a006. (англ.)
Посилання
- Overfitting: when accuracy measure goes wrong — ввідний відео-посібник. (англ.)
- The Problem of Overfitting Data (англ.)
- CSE546: Linear Regression Bias / Variance Tradeoff (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno gruden 2016 U statistici ta mashinnomu navchanni odnim iz najposhirenishih zavdan ye dopasovuvannya modeli do naboru trenuvalnih danih takim chinom shobi umozhliviti zdijsnennya nadijnih peredbachen na zagalnih danih na yakih ne zdijsnyuvalosya trenuvannya Pri perenavchanni angl overfitting statistichna model opisuye vipadkovu pohibku abo shum zamist vzayemozv yazku sho lezhit v osnovi danih Perenavchannya vinikaye todi koli model ye zanadto skladnoyu takoyu sho maye zanadto bagato vidnosno chisla sposterezhen Perenavchena model maye poganu en produktivnist oskilki vona zanadto silno reaguye na drugoryadni vidhilennya v trenuvalnih danih Zelena liniya predstavlyaye perenavchenu model a chorna regulyarizovanu V toj chas yak zelena liniya najkrashe sliduye trenuvalnim danim vona zanadto zalezhit vid nih i jmovirno matime vishij riven pohibki na novih nebachenih danih u porivnyanni z chornoyu liniyeyu Zashumleni priblizno linijni dani do yakih dopasovano linijnu ta polinomialnu funkciyi Hoch polinomialna funkciya j dopasovana idealno vid linijnoyi mozhna ochikuvati krashogo uzagalnennya Inshimi slovami yakbi ci dvi funkciyi zastosovuvalisya dlya ekstrapolyuvannya danih za mezhami tih do yakih zdijsnyuvalosya dopasovuvannya to linijna funkciya robila bi krashi peredbachennya Mozhlivist perenavchannya isnuye tomu sho kriterij yakij zastosovuyetsya dlya trenuvannya modeli vidriznyayetsya vid kriteriyu yakij zastosovuyetsya dlya ocinki yiyi efektivnosti Zokrema model zazvichaj trenuyut shlyahom maksimizaciyi yiyi produktivnosti na yakomus nabori trenuvalnih danih Prote yiyi efektivnist viznachayetsya ne yiyi produktivnistyu na trenuvalnih danih a yiyi zdatnistyu pracyuvati dobre na danih nebachenih Perenavchannya stayetsya todi koli model pochinaye zapam yatovuvati trenuvalni dani zamist togo shobi vchitisya uzagalnennyu z tendenciyi Yak krajnij priklad yaksho chislo parametriv ye takim zhe abo bilshim yak chislo sposterezhen to prosta model abo proces navchannya mozhe vidminno peredbachuvati trenuvalni dani prosto zapam yatovuyuchi yih povnistyu ale taka model zazvichaj zaznavatime rishuchoyi nevdachi pri zdijsnenni peredbachen pro novi abo nebacheni dani oskilki cya prosta model vzagali ne navchilasya uzagalnyuvati Potencial perenavchannya zalezhit ne lishe vid kilkostej parametriv ta danih ale j vid vidpovidnosti strukturi modeli formi danih ta velichini v porivnyanni z ochikuvanim rivnem shumu abo pohibki v danih Navit koli dopasovana model ne maye nadmirnogo chisla parametriv slid ochikuvati sho dopasovanij vzayemozv yazok pracyuvatime na novomu nabori danih ne tak dobre yak na nabori vikoristanomu dlya dopasovuvannya Zokrema znachennya koeficiyentu determinaciyi vidnosno pervinnih trenuvalnih danih en Shobi unikati perenavchannya neobhidno vikoristovuvati dodatkovi metodiki napriklad perehresne zatverdzhuvannya regulyarizaciyu rannyu zupinku en bayesovi apriorni parametriv abo porivnyannya modelej yaki mozhut vkazuvati koli podalshe trenuvannya ne davatime krashogo uzagalnennya Osnovoyu deyakih metodik ye abo 1 yavno shtrafuvati zanadto skladni modeli abo 2 pereviryati zdatnist modeli do uzagalnennya shlyahom ocinki yiyi produktivnosti na nabori danih ne vikoristanomu dlya trenuvannya yakij vvazhayetsya nablizhennyam tipovih nebachenih danih z yakimi stikatimetsya model Garnoyu analogiyeyu perenavchannya zadachi ye uyaviti ditinu yaka namagayetsya vivchiti sho ye viknom a sho ne ye viknom mi pochinayemo pokazuvati yij vikna i vona viyavlyaye na pochatkovomu etapi sho vsi vikna mayut sklo ta ramu i cherez nih mozhna divitisya nazovni deyaki z nih mozhe buti vidchineno Yaksho mi prodovzhimo pokazuvati ti sami vikna to ditina mozhe takozh zrobiti pomilkovij visnovok sho vsi vikna ye zelenimi i sho vsi zeleni rami ye viknami Perenavchayuchis takim chinom ciyeyi zadachi Mashinne navchannyaPerenavchannya peretrenuvannya v kerovanomu navchanni napriklad nejronnoyi merezhi Pohibku trenuvannya pokazano sinim pohibku perevirki pokazano chervonim obidvi yak funkciyi vid chisla cikliv trenuvannya Yaksho pohibka perevirki zrostaye dodatnij nahil v toj chas yak pohibka trenuvannya neuhilno znizhuyetsya vid yemnij nahil to mogla trapitisya situaciya perenavchannya Najkrashe peredbachuvalnoyu najkrashe dopasovanoyu model bude tam de pohibka perevirki dosyagaye svogo globalnogo minimumu Zazvichaj algoritm navchannya trenuyetsya z vikoristannyam deyakogo naboru trenuvalnih danih zrazkovih situacij dlya yakih bazhanij vihid ye vidomim Metoyu ye shobi algoritm takozh dobre pracyuvav nad peredbachennyam vihodu pri podavanni perevirnih danih yaki ne traplyalisya pid chas jogo trenuvannya Perenavchannya ye zastosuvannyam modelej abo procedur yaki porushuyut lezo Okkama napriklad vklyuchayuchi bilshe regulovanih parametriv nizh ye zreshtoyu optimalno abo vikoristovuyuchi skladnishij pidhid nizh ye zreshtoyu optimalno Dlya prikladu zavelikogo chisla regulovanih parametriv rozglyanmo takij nabir danih de trenuvalni dani dlya y mozhe buti adekvatno peredbacheno linijnoyu funkciyeyu dvoh zalezhnih zminnih Taka funkciya vimagaye lishe troh parametriv vidsikannya ta dvoh nahiliv Zamina ciyeyi prostoyi funkciyi novoyu skladnishoyu kvadratichnoyu funkciyeyu abo novoyu skladnishoyu linijnoyu funkciyeyu vid ponad dvoh zalezhnih zminnih nese rizik lezo Okkama znachit sho bud yaka zadana skladna funkciya ye apriori mensh imovirnoyu za bud yaku zadanu prostu funkciyu Yaksho cyu novu skladnishu funkciyu obrano zamist prostoyi funkciyi i yaksho ne bulo dostatno velikoyi koristi dlya dopasovuvannya do trenuvalnih danih shobi protistaviti yiyi pidvishennyu skladnosti to nova skladnisha funkciya perenavchayetsya danih i skladna perenavchena funkciya shvidshe za vse pracyuvatime girshe na perevirnih danih za mezhami trenuvalnogo naboru nizh prostisha funkciya navit yaksho skladnisha funkciya pracyuvala dobre abo navit krashe na nabori trenuvalnomu Pri porivnyanni riznih tipiv modelej skladnist ne mozhna vimiryuvati viklyuchno pidrahunkom togo skilki parametriv isnuye v kozhnij z modelej musit takozh rozglyadatisya j viraznist kozhnogo z parametriv Napriklad ye netrivialnim porivnyuvati bezposeredno skladnosti nejronnoyi merezhi yaka mozhe vidstezhuvati krivolinijni vzayemozv yazki z m parametrami ta regresijnoyi modeli z n parametrami Perenavchannya ye osoblivo jmovirnim v tih vipadkah koli navchannya vikonuvalosya zanadto dovgo abo koli trenuvalni zrazki ye ridkisnimi sho sprichinyaye dopasovuvannya do duzhe osoblivih vipadkovih oznak trenuvalnih danih yaki ne mayut en z en V procesi cogo perenavchannya produktivnist na trenuvalnih zrazkah prodovzhuye pidvishuvatisya todi yak produktivnist na nebachenih danih staye girshoyu Yak prostij priklad rozglyanmo bazu danih rozdribnih kupivel yaka vklyuchaye pridbanu poziciyu pokupcya ta datu j chas kupivli Neskladno pobuduvati model yaka idealno dopasovuyetsya do trenuvalnogo naboru iz zastosuvannyam dati j chasu kupivli shobi peredbachuvati inshi oznaki ale cya model vzagali ne uzagalnyuvatimetsya na novi dani oskilki ti minuli chasi vzhe nikoli ne nastanut Yak pravilo kazhut sho algoritm navchannya perenavchayetsya vidnosno prostishogo yaksho vin ye tochnishim u dopasovuvanni do vidomih danih rozumnist zadnim chislom ale mensh tochnim u peredbachuvanni novih danih dalekoglyadnist Perenavchannya mozhna intuyitivno rozumiti z tochki zoru tiyeyi obstavini sho informaciyu z usogo minulogo dosvidu mozhe buti podileno na dvi grupi informaciyu yaka stosuyetsya majbutnogo i nedorechnu informaciyu shum Za vsih inshih rivnih umov sho skladnishim dlya peredbachuvannya ye kriterij tobto sho vishoyu ye neviznachenist to bilshe shumu yakij treba ignoruvati mistitsya v minulij informaciyi Zadacha polyagaye u viznachenni togo yaku chastinu ignoruvati Algoritm navchannya yakij znizhuye shansi dopasovuvannya do shumu nazivayetsya nadijnim Naslidki Najochevidnishim naslidkom perenavchannya ye pogana produktivnist na perevirnomu nabori danih Do inshih negativnih naslidkiv nalezhat Perenavchena funkciya shilna vimagati bilshe informaciyi pro kozhen element perevirnogo naboru danih nizh funkciya optimalna zbirannya cih dodatkovih nepotribnih danih mozhe buti vitratnim abo shilnim do pomilok osoblivo yaksho kozhnu okremu chastinu informaciyi potribno zbirati za dopomogoyu lyudskogo sposterezhennya ta vvedennya danih vruchnu Skladnisha perenavchena funkciya shilna buti mensh perenosnoyu nizh prosta Yak odna z krajnostej linijna regresiya z odniyeyu zminnoyu ye nastilki perenosnoyu sho za potrebi mozhe navit zdijsnyuvatisya vruchnu Na protilezhnij krajnosti znahodyatsya modeli yaki mozhe buti vidtvoreno lishe tochnim dublyuvannyam cilisnoyi postanovki pervinnogo rozrobnika sho uskladnyuye povtorne vikoristannya abo naukove vidtvorennya RegresiyaPerenavchannya takozh ye problemoyu i za mezhami mashinnogo navchannya u shirokomu vivchenni regresiyi vklyuchno iz regresiyeyu zdijsnyuvanoyu vruchnu V krajnomu vipadku yaksho ye p displaystyle p zminnih u linijnij regresiyi z p displaystyle p tochkami danih to dopasovana liniya prohoditime tochno cherez vsi tochki Isnuye bezlich empirichnih pravil dlya viznachennya neobhidnogo chisla sposterezhen na kozhnu nezalezhnu zminnu vklyuchno z 10 ta 10 15 NedonavchannyaNedonavchannya traplyayetsya todi koli statistichna model abo algoritm mashinnogo navchannya ne mozhut shopiti tendenciyu sho lezhit v osnovi danih Vono traplyayetsya todi koli model abo algoritm ne dostatno dopasovuyetsya do danih Nedonavchannya traplyayetsya todi koli model abo algoritm demonstruyut nizku dispersiyu ale visokij zsuv na protivagu protilezhnomu perenavchannyu z visokoyu dispersiyeyu ta nizkim zsuvom Chasto vono ye rezultatom zanadto prostoyi modeli Div takozhKompromis zsuvu ta dispersiyi en Prosiyuvannya danih Lezo Okkama Obirannya modeli VCh rozmirnist vimiryuye skladnist modeli navchannya Bilsha VCh rozmirnist oznachaye vishij rizik perenavchannya PrimitkiEveritt B S 2002 Cambridge Dictionary of Statistics CUP ISBN 0 521 81099 X stattya Shrinkage angl Hawkins Douglas M The problem of overfitting Journal of chemical information and computer sciences 44 1 2004 1 12 angl Martha K Smith 13 chervnya 2014 Overfitting University of Texas at Austin Procitovano 31 lipnya 2016 angl Draper Norman R Smith Harry 1998 Applied regression analysis 3rd Edition New York Wiley ISBN 978 0471170822 angl Jim Frost 3 veresnya 2015 The Danger of Overfitting Regression Models Procitovano 31 lipnya 2016 angl Cai Eric 20 bereznya 2014 StatBlogs Arhiv originalu za 29 grudnya 2016 Procitovano 31 grudnya 2016 angl LiteraturaLeinweber D J 2007 Stupid Data Miner Tricks The Journal of Investing 16 15 22 doi 10 3905 joi 2007 681820 angl Tetko I V Livingstone D J Luik A I 1995 Neural network studies 1 Comparison of Overfitting and Overtraining PDF en 35 5 826 833 doi 10 1021 ci00027a006 angl PosilannyaOverfitting when accuracy measure goes wrong vvidnij video posibnik angl The Problem of Overfitting Data angl CSE546 Linear Regression Bias Variance Tradeoff angl