Рання зупинка є формою регуляризації, яка використовується для уникнення перенавчання у процесі машинного навчання за допомогою ітераційного методу, такого як градієнтний спуск. Такі методи оновлюють поточний стан так, щоб він краще відповідав навчальним даним з кожною ітерацією. До певного моменту це покращує продуктивність на даних розташованих поза навчальним набором. Але в якийсь момент поліпшення пристосування до навчальних даних вже відбувається за рахунок посилення похибки узагальнення. Правила ранньої зупинки дають вказівки щодо того, скільки ітерацій можна виконати до того, як почнеться перенавчання. Правила ранньої зупинки застосовувалися в багатьох різних методах машинного навчання, з різним теоретичним обґрунтуванням.
Тло
У цьому розділі представлені деякі основні концепції машинного навчання, необхідні для опису методів ранньої зупинки.
Перенавчання
Алгоритми машинного навчання тренують модель на скінченному наборі навчальних даних. Під час навчання модель оцінюється щодо того, наскільки добре вона прогнозує спостереження, на тих даних, які є в навчальному наборі. Загалом, мета машинного навчання полягає в тому, щоб створити модель, яка узагальнює, тобто робить прогнози на спостереженнях, які раніше не траплялись. Перенавчання відбувається тоді, коли модель добре вписується в дані тренувального набору, одночасно з тим має велику помилку узагальнення.
Регуляризація
Регуляризація, в контексті машинного навчання, відноситься до процесу зміни алгоритму навчання з метою запобігання перенавчання. Це, як правило, передбачає накладання певного обмеження гладкості на вивчену модель. Ця гладкість може бути затребувана явно, коли фіксується кількість параметрів у моделі, або через зміну функції втрат, як у регуляризації Тихонова. Регуляція Тихонова, разом з [en] і багатьма іншими схемами регуляризації, відноситься до спектральної регуляризації, регуляризації, яка характеризується застосуванням фільтра. До цього класу методів належить і рання зупинка.
Методи градієнтного спуску
Методи градієнтного спуску — ітераційні методи оптимізації першого порядку. Кожна ітерація оновлює приблизне рішення задачі оптимізації, роблячи крок у від'ємному напрямку градієнта цільової функції. Вибираючи відповідний розмір кроку, такий метод може збігатись до локального мінімуму цільової функції. Градієнтний спуск використовується в машинному навчанні через визначення функції втрат, яка відображає помилку на навчальному наборі, а потім відбувається мінімізація функції.
Ранні зупинки на основі аналітичних результатів
Рання зупинка в статистичній теорії навчання
Рання зупинка може бути використана для регуляризації [en] задач регресії, які виникають в машинному навчанні. Для заданого простору вхідних даних , простору виводу і зразків, які взяті з невідомої ймовірнісної міри на , метою таких задач є наближення функцією регресії , яка задається як
- ,
де є умовним розподілом на індукованим .
Один загальний вибір для апроксимації функції регресії полягає у використанні функцій з [en]. Ці простори можуть мати нескінченну кількість вимірів, які містять рішення, що відповідають перенавчанню на навчальних наборах довільного розміру. Таким чином, регуляризація особливо важлива для цих методів. Один із способів регулювання непараметричних задач регресії полягає в застосуванні правила ранньої зупинки до ітераційної процедури, такої як спуск градієнта.
Правила ранньої зупинки, запропоновані для цих задач, ґрунтуються на аналізі верхніх меж похибки узагальнення як функції числа ітерації. Вони дають приписи щодо кількості ітерацій для запуску, які можна обчислити до початку процесу розв'язання.
Рання зупинка у процесі підсилення
Підсилення відноситься до сімейства алгоритмів, в яких множина слабких учнів (учні, які лише злегка корелюють зі справжнім процесом) об'єднуються для отримання сильного учня. Було показано, що для декількох алгоритмів підсилення (включаючи [en]) регуляризація за допомогою ранньої зупинки може забезпечити гарантії [en], тобто, результат отриманий при підсиленні наближається до справжнього рішення, оскільки кількість зразків прямує до нескінченності.
-посилення
Методи підсилення мають тісні зв'язки з методами градієнтного спуску, описаними вище, і можуть розглядатися як метод підсилення, заснований на втратах: L2Boost.
Рання зупинка на основі перевірки
Ці правила ранньої зупинки працюють, розбиваючи оригінальний навчальний набір на новий навчальний набір і набір перевірки. Помилка набору перевірки використовується як посередник для помилки узагальнення при визначенні початку перенавчання. Ці методи найчастіше використовуються у навчанні нейронних мереж. Пречелт дає наступний підсумок наївної реалізації ранньої зупинки на базі відстороненого набору наступним чином:
- Розділити навчальні дані на навчальний набір і перевірочний набір, наприклад, у пропорції 2 до 1.
- Навчайте тільки на навчальному наборі та оцінюйте помилку на наборі для перевірки один раз за якийсь проміжок, наприклад, після кожної п'ятої епохи.
- Зупиніть тренування, як тільки помилка на перевірочному наборі стане вище, ніж це було в останній раз.
- Використовуйте ті ваги, які мережа мала на попередньому кроці, як результат циклу навчання.
— Лутц Пречелт, 'Рання зупинка – але коли?'
Більш складною за формою є використання перехресного затверджування — численні розбиття даних на навчальний набір і перевірочний набір — замість одного поділу на навчальний і перевірочний набір. Навіть ця проста процедура ускладнюється на практиці тим, що помилка перевірки може коливатися під час навчання, утворюючи декілька локальних мінімумів. Таке ускладнення призвело до створення багатьох ad hoc правил для вирішення питання про початок перенавчання.
Див. також
- Перенавчання, рання зупинка є одним з методів, що використовуються для запобігання перенавчання
- Похибка узагальнення
- Регуляризація (математика)
- Теорія статистичного навчання
- Підсилювання (машинне навчання)
- Перехресне затверджування, зокрема, за допомогою «набору перевірки»
- Штучна нейронна мережа
Примітки
- Girosi, Federico; Michael Jones; Tomaso Poggio (1 березня 1995). Regularization Theory and Neural Networks Architectures. Neural Computation. 7 (2): 219—269. CiteSeerX 10.1.1.48.9258. doi:10.1162/neco.1995.7.2.219. ISSN 0899-7667.
- Smale, Steve; Ding-Xuan Zhou (1 серпня 2007). Learning Theory Estimates via Integral Operators and Their Approximations. Constructive Approximation. 26 (2): 153—172. CiteSeerX 10.1.1.210.722. doi:10.1007/s00365-006-0659-y. ISSN 0176-4276.
- Yao, Yuan; Lorenzo Rosasco; Andrea Caponnetto (1 серпня 2007). On Early Stopping in Gradient Descent Learning. Constructive Approximation. 26 (2): 289—315. CiteSeerX 10.1.1.329.2482. doi:10.1007/s00365-006-0663-2. ISSN 0176-4276.
- Raskutti, G.; M.J. Wainwright; Bin Yu (2011). Early stopping for non-parametric regression: An optimal data-dependent stopping rule. 2011 49th Annual Allerton Conference on Communication, Control, and Computing (Allerton). 2011 49th Annual Allerton Conference on Communication, Control, and Computing (Allerton). с. 1318—1325. doi:10.1109/Allerton.2011.6120320.
- Wenxin Jiang (February 2004). Process consistency for AdaBoost. The Annals of Statistics. 32 (1): 13—29. doi:10.1214/aos/1079120128. ISSN 0090-5364.
- Bühlmann, Peter; Bin Yu (1 червня 2003). Boosting with the L₂ Loss: Regression and Classification. Journal of the American Statistical Association. 98 (462): 324—339. doi:10.1198/016214503000125. ISSN 0162-1459. JSTOR 30045243.
- Tong Zhang; Bin Yu (1 серпня 2005). Boosting with Early Stopping: Convergence and Consistency. The Annals of Statistics. 33 (4): 1538—1579. arXiv:math/0508276. doi:10.1214/009053605000000255. ISSN 0090-5364. JSTOR 3448617.
- Prechelt, Lutz; Geneviève B. Orr (1 січня 2012). Early Stopping — But When?. У Grégoire Montavon, (eds.) (ред.). Neural Networks: Tricks of the Trade. Lecture Notes in Computer Science. Springer Berlin Heidelberg. с. 53–67. doi:10.1007/978-3-642-35289-8_5. ISBN .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Rannya zupinka ye formoyu regulyarizaciyi yaka vikoristovuyetsya dlya uniknennya perenavchannya u procesi mashinnogo navchannya za dopomogoyu iteracijnogo metodu takogo yak gradiyentnij spusk Taki metodi onovlyuyut potochnij stan tak shob vin krashe vidpovidav navchalnim danim z kozhnoyu iteraciyeyu Do pevnogo momentu ce pokrashuye produktivnist na danih roztashovanih poza navchalnim naborom Ale v yakijs moment polipshennya pristosuvannya do navchalnih danih vzhe vidbuvayetsya za rahunok posilennya pohibki uzagalnennya Pravila rannoyi zupinki dayut vkazivki shodo togo skilki iteracij mozhna vikonati do togo yak pochnetsya perenavchannya Pravila rannoyi zupinki zastosovuvalisya v bagatoh riznih metodah mashinnogo navchannya z riznim teoretichnim obgruntuvannyam TloU comu rozdili predstavleni deyaki osnovni koncepciyi mashinnogo navchannya neobhidni dlya opisu metodiv rannoyi zupinki Perenavchannya Na zobrazhenni pokazano problemu perenavchannya v mashinnomu navchanni Chervoni tochki yavlyayut soboyu dani dlya navchalnih naboriv Zelena liniya vidobrazhaye spravzhnij funkcionalnij zv yazok a sinya liniya pokazuye funkciyu yaka bula vivchena Taka situaciya nazivayetsya perenavchannyam Dokladnishe Perenavchannya Algoritmi mashinnogo navchannya trenuyut model na skinchennomu nabori navchalnih danih Pid chas navchannya model ocinyuyetsya shodo togo naskilki dobre vona prognozuye sposterezhennya na tih danih yaki ye v navchalnomu nabori Zagalom meta mashinnogo navchannya polyagaye v tomu shob stvoriti model yaka uzagalnyuye tobto robit prognozi na sposterezhennyah yaki ranishe ne traplyalis Perenavchannya vidbuvayetsya todi koli model dobre vpisuyetsya v dani trenuvalnogo naboru odnochasno z tim maye veliku pomilku uzagalnennya Regulyarizaciya Dokladnishe Regulyarizaciya matematika Regulyarizaciya v konteksti mashinnogo navchannya vidnositsya do procesu zmini algoritmu navchannya z metoyu zapobigannya perenavchannya Ce yak pravilo peredbachaye nakladannya pevnogo obmezhennya gladkosti na vivchenu model Cya gladkist mozhe buti zatrebuvana yavno koli fiksuyetsya kilkist parametriv u modeli abo cherez zminu funkciyi vtrat yak u regulyarizaciyi Tihonova Regulyaciya Tihonova razom z en i bagatma inshimi shemami regulyarizaciyi vidnositsya do spektralnoyi regulyarizaciyi regulyarizaciyi yaka harakterizuyetsya zastosuvannyam filtra Do cogo klasu metodiv nalezhit i rannya zupinka Metodi gradiyentnogo spusku Dokladnishe Gradiyentnij spusk Metodi gradiyentnogo spusku iteracijni metodi optimizaciyi pershogo poryadku Kozhna iteraciya onovlyuye priblizne rishennya zadachi optimizaciyi roblyachi krok u vid yemnomu napryamku gradiyenta cilovoyi funkciyi Vibirayuchi vidpovidnij rozmir kroku takij metod mozhe zbigatis do lokalnogo minimumu cilovoyi funkciyi Gradiyentnij spusk vikoristovuyetsya v mashinnomu navchanni cherez viznachennya funkciyi vtrat yaka vidobrazhaye pomilku na navchalnomu nabori a potim vidbuvayetsya minimizaciya funkciyi Ranni zupinki na osnovi analitichnih rezultativRannya zupinka v statistichnij teoriyi navchannya Rannya zupinka mozhe buti vikoristana dlya regulyarizaciyi en zadach regresiyi yaki vinikayut v mashinnomu navchanni Dlya zadanogo prostoru vhidnih danih X displaystyle X prostoru vivodu Y displaystyle Y i zrazkiv yaki vzyati z nevidomoyi jmovirnisnoyi miri r displaystyle rho na Z X Y displaystyle Z X times Y metoyu takih zadach ye nablizhennya funkciyeyu regresiyi fr displaystyle f rho yaka zadayetsya yak fr x Yydr y x x X displaystyle f rho x int Y yd rho y x x in X de r y x displaystyle rho y x ye umovnim rozpodilom na x displaystyle x indukovanim r displaystyle rho Odin zagalnij vibir dlya aproksimaciyi funkciyi regresiyi polyagaye u vikoristanni funkcij z en Ci prostori mozhut mati neskinchennu kilkist vimiriv yaki mistyat rishennya sho vidpovidayut perenavchannyu na navchalnih naborah dovilnogo rozmiru Takim chinom regulyarizaciya osoblivo vazhliva dlya cih metodiv Odin iz sposobiv regulyuvannya neparametrichnih zadach regresiyi polyagaye v zastosuvanni pravila rannoyi zupinki do iteracijnoyi proceduri takoyi yak spusk gradiyenta Pravila rannoyi zupinki zaproponovani dlya cih zadach gruntuyutsya na analizi verhnih mezh pohibki uzagalnennya yak funkciyi chisla iteraciyi Voni dayut pripisi shodo kilkosti iteracij dlya zapusku yaki mozhna obchisliti do pochatku procesu rozv yazannya Rannya zupinka u procesi pidsilennya Pidsilennya vidnositsya do simejstva algoritmiv v yakih mnozhina slabkih uchniv uchni yaki lishe zlegka korelyuyut zi spravzhnim procesom ob yednuyutsya dlya otrimannya silnogo uchnya Bulo pokazano sho dlya dekilkoh algoritmiv pidsilennya vklyuchayuchi en regulyarizaciya za dopomogoyu rannoyi zupinki mozhe zabezpechiti garantiyi en tobto rezultat otrimanij pri pidsilenni nablizhayetsya do spravzhnogo rishennya oskilki kilkist zrazkiv pryamuye do neskinchennosti L2 displaystyle L 2 posilennya Metodi pidsilennya mayut tisni zv yazki z metodami gradiyentnogo spusku opisanimi vishe i mozhut rozglyadatisya yak metod pidsilennya zasnovanij na L2 displaystyle L 2 vtratah L2Boost Rannya zupinka na osnovi perevirkiCi pravila rannoyi zupinki pracyuyut rozbivayuchi originalnij navchalnij nabir na novij navchalnij nabir i nabir perevirki Pomilka naboru perevirki vikoristovuyetsya yak poserednik dlya pomilki uzagalnennya pri viznachenni pochatku perenavchannya Ci metodi najchastishe vikoristovuyutsya u navchanni nejronnih merezh Prechelt daye nastupnij pidsumok nayivnoyi realizaciyi rannoyi zupinki na bazi vidstoronenogo naboru nastupnim chinom Rozdiliti navchalni dani na navchalnij nabir i perevirochnij nabir napriklad u proporciyi 2 do 1 Navchajte tilki na navchalnomu nabori ta ocinyujte pomilku na nabori dlya perevirki odin raz za yakijs promizhok napriklad pislya kozhnoyi p yatoyi epohi Zupinit trenuvannya yak tilki pomilka na perevirochnomu nabori stane vishe nizh ce bulo v ostannij raz Vikoristovujte ti vagi yaki merezha mala na poperednomu kroci yak rezultat ciklu navchannya Lutc Prechelt Rannya zupinka ale koli Bilsh skladnoyu za formoyu ye vikoristannya perehresnogo zatverdzhuvannya chislenni rozbittya danih na navchalnij nabir i perevirochnij nabir zamist odnogo podilu na navchalnij i perevirochnij nabir Navit cya prosta procedura uskladnyuyetsya na praktici tim sho pomilka perevirki mozhe kolivatisya pid chas navchannya utvoryuyuchi dekilka lokalnih minimumiv Take uskladnennya prizvelo do stvorennya bagatoh ad hoc pravil dlya virishennya pitannya pro pochatok perenavchannya Div takozhPerenavchannya rannya zupinka ye odnim z metodiv sho vikoristovuyutsya dlya zapobigannya perenavchannya Pohibka uzagalnennya Regulyarizaciya matematika Teoriya statistichnogo navchannya Pidsilyuvannya mashinne navchannya Perehresne zatverdzhuvannya zokrema za dopomogoyu naboru perevirki Shtuchna nejronna merezhaPrimitkiGirosi Federico Michael Jones Tomaso Poggio 1 bereznya 1995 Regularization Theory and Neural Networks Architectures Neural Computation 7 2 219 269 CiteSeerX 10 1 1 48 9258 doi 10 1162 neco 1995 7 2 219 ISSN 0899 7667 Smale Steve Ding Xuan Zhou 1 serpnya 2007 Learning Theory Estimates via Integral Operators and Their Approximations Constructive Approximation 26 2 153 172 CiteSeerX 10 1 1 210 722 doi 10 1007 s00365 006 0659 y ISSN 0176 4276 Yao Yuan Lorenzo Rosasco Andrea Caponnetto 1 serpnya 2007 On Early Stopping in Gradient Descent Learning Constructive Approximation 26 2 289 315 CiteSeerX 10 1 1 329 2482 doi 10 1007 s00365 006 0663 2 ISSN 0176 4276 Raskutti G M J Wainwright Bin Yu 2011 Early stopping for non parametric regression An optimal data dependent stopping rule 2011 49th Annual Allerton Conference on Communication Control and Computing Allerton 2011 49th Annual Allerton Conference on Communication Control and Computing Allerton s 1318 1325 doi 10 1109 Allerton 2011 6120320 Wenxin Jiang February 2004 Process consistency for AdaBoost The Annals of Statistics 32 1 13 29 doi 10 1214 aos 1079120128 ISSN 0090 5364 Buhlmann Peter Bin Yu 1 chervnya 2003 Boosting with the L Loss Regression and Classification Journal of the American Statistical Association 98 462 324 339 doi 10 1198 016214503000125 ISSN 0162 1459 JSTOR 30045243 Tong Zhang Bin Yu 1 serpnya 2005 Boosting with Early Stopping Convergence and Consistency The Annals of Statistics 33 4 1538 1579 arXiv math 0508276 doi 10 1214 009053605000000255 ISSN 0090 5364 JSTOR 3448617 Prechelt Lutz Genevieve B Orr 1 sichnya 2012 Early Stopping But When U Gregoire Montavon eds red Neural Networks Tricks of the Trade Lecture Notes in Computer Science Springer Berlin Heidelberg s 53 67 doi 10 1007 978 3 642 35289 8 5 ISBN 978 3 642 35289 8