У машинному навчанні те́мп навча́ння (англ. learning rate) або коефіціє́нт шви́дкості навча́ння — це гіперпараметр алгоритму оптимізації, який задає розмір кроку на кожній ітерації пошуку мінімуму функції втрат. Оскільки він визначає те, якою мірою нова отримана інформація замінює попередню інформацію, він образно представляє швидкість, з якою модель машинного навчання «навчається». У літературі з адаптивного керування швидкість навчання зазвичай називають коефіціє́нтом підси́лення (англ. gain).
При встановленні темпу навчання існує проблема компромісу між швидкістю збіжності та перестрибуванням мінімуму. В той час як [en] зазвичай отримується з градієнта функції втрат, коефіцієнт швидкості навчання визначає, наскільки великий крок буде зроблено в цьому напрямку. Занадто високий темп навчання змусить алгоритм перестрибнути через мінімум, а навчання з занадто низьким коефіцієнтом або займе занадто багато часу, або застрягне у небажаному локальному мінімумі.
Щоб досягти швидшої збіжності, запобігти гойданню і застряганню в небажаних локальних мінімумах, темп навчання часто змінюється під час навчання або відповідно до графіка темпу навчання, або за допомогою алгоритмів адаптивного темпу навчання. Коефіцієнт швидкості навчання та його підбір може відрізнятися для різних параметрів моделі, і в такому випадку отримуємо діагональну матрицю, яку можна розглядати як наближення оберненої матриці Гесе, що використовується в методі Ньютона. Темп навчання подібен до довжини кроку, отримуваної неточним лінійним пошуком у квазіньютонових методах і відповідних алгоритмах оптимізації.
Мініпакетна підвибірка (МППВ, англ. mini-batch sub-sampling, MBSS) під час лінійного пошуку торкається характеристик функцій втрат, за якими необхідно визначати темп навчання. Статична МППВ утримує мініпакет незмінним уздовж напрямку пошуку, що призводить до плавності функції втрат уздовж напрямку пошуку. Динамічна МППВ уточнює мініпакет на кожному обчисленні функції, що призводить до поточкової розривності функції втрат уздовж напрямку пошуку. До видів лінійного пошуку, які адаптивно встановлюють темп навчання для функцій втрат статичної МППВ, належить параболічно наближувальний лінійний (ПНЛ, англ. parabolic approximation line, PAL) пошук. До видів лінійного пошуку, які адаптивно встановлюють темп навчання для функцій втрат динамічної МППВ, належать імовірнісні види лінійного пошуку, виключно градієнтні види лінійного пошуку (англ. gradient-only line searches, GOLS) та квадратичні наближення.
Графік темпу навчання
Початковий коефіцієнт можна залишити за замовчуванням або вибрати за допомогою низки методів. Графік темпу навчання змінює коефіцієнт швидкості навчання під час навчання і найчастіше оновлюється між епохами/ітераціями. В основному це робиться з двома параметрами: загасанням та імпульсом. Існує багато різних графіків швидкості навчання, але найпоширенішими є часові, покрокові та експоненційні.
Загасання (англ. decay) — це гіперпараметр, що служить для того, щоб уникнути гойдань — ситуації, яка може виникнути, коли занадто високий постійний темп навчання змушує алгоритм перестрибувати вперед і назад через мінімум.
Імпульс (англ. momentum) аналогічний кулі, що котиться з пагорба, якщо ми хочемо, щоб м'яч опустився в найнижчу точку пагорба (відповідає найменшій похибці). Імпульс прискорює навчання (збільшуючи коефіцієнт швидкості), коли градієнт функції втрат рухається в одному напрямку протягом тривалого часу, а також уникає локальних мінімумів, «перекочуючись» через невеликі нерівності. Імпульс контролюється гіперпараметром, аналогічним масі м'яча, який потрібно підібрати вручну — занадто висока, і м'яч перекотиться через мінімуми, які ми хочемо знайти, занадто низька, і він не допоможе оптимізувати пошук. Формула для вибору імпульсу є складнішою, ніж для загасання, але найчастіше вбудована в бібліотеки глибокого навчання, такі як Keras.
Часовий (англ. time-based) графік темпу навчання змінює коефіцієнт швидкості навчання залежно від темпу навчання на попередньому проміжку часу. З урахуванням загасання, формула темпу навчання в наступному проміжку часу виглядає так:
де — це коефіцієнт швидкості навчання, є параметром загасання, а — це номер кроку.
Кроковий (англ. step-based) графік темпу навчання змінює темп навчання відповідно до деяких попередньо визначених кроків. Формула з урахуванням загасання визначається як:
де — темп навчання на ітерації , — початковий темп навчання, — це наскільки темп навчання повинен змінюватися на кожному кроці, а відповідає швидкості зменшення або тому, як часто слід скидати швидкість (10 відповідає падінню кожні 10 кроків). Функція floor () округлює всі значення менші за 1 до 0.
Експоненційний (англ. exponential) графік темпу навчання схожий на покроковий, але замість кроків використовується експоненційно спадна функція. Формула експоненційного графіка виглядає як:
де є параметром загасання.
Адаптивний темп навчання
Проблема з графіками темпу навчання полягає в тому, що всі вони залежать від гіперпараметрів, які потрібно обирати вручну для кожного конкретного сеансу навчання, і вони можуть сильно відрізнятися залежно від задачі або використовуваної моделі. Для подолання цієї проблеми існує багато різних адаптивних алгоритмів градієнтного спуску, таких як [en], Adadelta, [en] та [en], які зазвичай вбудовуються в бібліотеки глибокого навчання, такі як Keras.
Див. також
Примітки
- Murphy, Kevin P. (2012). Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press. с. 247. ISBN . (англ.)
- Delyon, Bernard (2000). Stochastic Approximation with Decreasing Gain: Convergence and Asymptotic Theory. Unpublished Lecture Notes. Université de Rennes. CiteSeerX 10.1.1.29.4428. (англ.)
- Buduma, Nikhil; Locascio, Nicholas (2017). Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms. O'Reilly. с. 21. ISBN . (англ.)
- Patterson, Josh; Gibson, Adam (2017). Understanding Learning Rates. Deep Learning : A Practitioner's Approach. O'Reilly. с. 258–263. ISBN . (англ.)
- Ruder, Sebastian (2017). An Overview of Gradient Descent Optimization Algorithms. arXiv:1609.04747.
- Nesterov, Y. (2004). Introductory Lectures on Convex Optimization: A Basic Course. Boston: Kluwer. с. 25. ISBN . (англ.)
- Dixon, L. C. W. (1972). The Choice of Step Length, a Crucial Factor in the Performance of Variable Metric Algorithms. Numerical Methods for Non-linear Optimization. London: Academic Press. с. 149–170. ISBN . (англ.)
- An empirical study into finding optima in stochastic optimization of neural networks // Information Sciences. — 2021. — Т. 560 (7 липня). — С. 235-255. — arXiv:1903.08552. (англ.)
- Mutschler, Maximus; Zell, Andreas (2019). Parabolic Approximation Line Search for DNNs. arXiv:1903.11991. (англ.)
- Mahsereci, Maren; Hennig, Phillip (2016). Probabilistic Line Searches for Stochastic Optimization. arXiv:1502.02846v4. (англ.)
- Resolving learning rates adaptively by locating stochastic non-negative associated gradient projection points using line searches // Journal of Global Optimization. — 2021. — Т. 79 (7 липня). — С. 111-152. — arXiv:2001.05113. (англ.)
- Chae, Younghwan; Wilke, Daniel N. (2019). Empirical study towards understanding line search approximations for training neural networks. arXiv:1909.06893. (англ.)
- Smith, Leslie N. (4 квітня 2017). Cyclical Learning Rates for Training Neural Networks. arXiv:1506.01186 [cs.CV]. (англ.)
- Murphy, Kevin (2021). Probabilistic Machine Learning: An Introduction. MIT Press. Процитовано 10 квітня 2021. (англ.)
- Brownlee, Jason (22 січня 2019). How to Configure the Learning Rate When Training Deep Learning Neural Networks. Machine Learning Mastery. Процитовано 4 січня 2021. (англ.)
Література
- Géron, Aurélien (2017). Gradient Descent. Hands-On Machine Learning with Scikit-Learn and TensorFlow. O'Reilly. с. 113—124. ISBN . (англ.)
- Plagianakos, V. P.; Magoulas, G. D.; Vrahatis, M. N. (2001). Learning Rate Adaptation in Stochastic Gradient Descent. Advances in Convex Analysis and Global Optimization. Kluwer. с. 433—444. ISBN . (англ.)
Посилання
- de Freitas, Nando (12 лютого 2015). Optimization. Deep Learning Lecture 6. University of Oxford — через YouTube. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U mashinnomu navchanni te mp navcha nnya angl learning rate abo koeficiye nt shvi dkosti navcha nnya ce giperparametr algoritmu optimizaciyi yakij zadaye rozmir kroku na kozhnij iteraciyi poshuku minimumu funkciyi vtrat Oskilki vin viznachaye te yakoyu miroyu nova otrimana informaciya zaminyuye poperednyu informaciyu vin obrazno predstavlyaye shvidkist z yakoyu model mashinnogo navchannya navchayetsya U literaturi z adaptivnogo keruvannya shvidkist navchannya zazvichaj nazivayut koeficiye ntom pidsi lennya angl gain Pri vstanovlenni tempu navchannya isnuye problema kompromisu mizh shvidkistyu zbizhnosti ta perestribuvannyam minimumu V toj chas yak en zazvichaj otrimuyetsya z gradiyenta funkciyi vtrat koeficiyent shvidkosti navchannya viznachaye naskilki velikij krok bude zrobleno v comu napryamku Zanadto visokij temp navchannya zmusit algoritm perestribnuti cherez minimum a navchannya z zanadto nizkim koeficiyentom abo zajme zanadto bagato chasu abo zastryagne u nebazhanomu lokalnomu minimumi Shob dosyagti shvidshoyi zbizhnosti zapobigti gojdannyu i zastryagannyu v nebazhanih lokalnih minimumah temp navchannya chasto zminyuyetsya pid chas navchannya abo vidpovidno do grafika tempu navchannya abo za dopomogoyu algoritmiv adaptivnogo tempu navchannya Koeficiyent shvidkosti navchannya ta jogo pidbir mozhe vidriznyatisya dlya riznih parametriv modeli i v takomu vipadku otrimuyemo diagonalnu matricyu yaku mozhna rozglyadati yak nablizhennya obernenoyi matrici Gese sho vikoristovuyetsya v metodi Nyutona Temp navchannya podiben do dovzhini kroku otrimuvanoyi netochnim linijnim poshukom u kvazinyutonovih metodah i vidpovidnih algoritmah optimizaciyi Minipaketna pidvibirka MPPV angl mini batch sub sampling MBSS pid chas linijnogo poshuku torkayetsya harakteristik funkcij vtrat za yakimi neobhidno viznachati temp navchannya Statichna MPPV utrimuye minipaket nezminnim uzdovzh napryamku poshuku sho prizvodit do plavnosti funkciyi vtrat uzdovzh napryamku poshuku Dinamichna MPPV utochnyuye minipaket na kozhnomu obchislenni funkciyi sho prizvodit do potochkovoyi rozrivnosti funkciyi vtrat uzdovzh napryamku poshuku Do vidiv linijnogo poshuku yaki adaptivno vstanovlyuyut temp navchannya dlya funkcij vtrat statichnoyi MPPV nalezhit parabolichno nablizhuvalnij linijnij PNL angl parabolic approximation line PAL poshuk Do vidiv linijnogo poshuku yaki adaptivno vstanovlyuyut temp navchannya dlya funkcij vtrat dinamichnoyi MPPV nalezhat imovirnisni vidi linijnogo poshuku viklyuchno gradiyentni vidi linijnogo poshuku angl gradient only line searches GOLS ta kvadratichni nablizhennya Grafik tempu navchannyaPochatkovij koeficiyent mozhna zalishiti za zamovchuvannyam abo vibrati za dopomogoyu nizki metodiv Grafik tempu navchannya zminyuye koeficiyent shvidkosti navchannya pid chas navchannya i najchastishe onovlyuyetsya mizh epohami iteraciyami V osnovnomu ce robitsya z dvoma parametrami zagasannyam ta impulsom Isnuye bagato riznih grafikiv shvidkosti navchannya ale najposhirenishimi ye chasovi pokrokovi ta eksponencijni Zagasannya angl decay ce giperparametr sho sluzhit dlya togo shob uniknuti gojdan situaciyi yaka mozhe viniknuti koli zanadto visokij postijnij temp navchannya zmushuye algoritm perestribuvati vpered i nazad cherez minimum Impuls angl momentum analogichnij kuli sho kotitsya z pagorba yaksho mi hochemo shob m yach opustivsya v najnizhchu tochku pagorba vidpovidaye najmenshij pohibci Impuls priskoryuye navchannya zbilshuyuchi koeficiyent shvidkosti koli gradiyent funkciyi vtrat ruhayetsya v odnomu napryamku protyagom trivalogo chasu a takozh unikaye lokalnih minimumiv perekochuyuchis cherez neveliki nerivnosti Impuls kontrolyuyetsya giperparametrom analogichnim masi m yacha yakij potribno pidibrati vruchnu zanadto visoka i m yach perekotitsya cherez minimumi yaki mi hochemo znajti zanadto nizka i vin ne dopomozhe optimizuvati poshuk Formula dlya viboru impulsu ye skladnishoyu nizh dlya zagasannya ale najchastishe vbudovana v biblioteki glibokogo navchannya taki yak Keras Chasovij angl time based grafik tempu navchannya zminyuye koeficiyent shvidkosti navchannya zalezhno vid tempu navchannya na poperednomu promizhku chasu Z urahuvannyam zagasannya formula tempu navchannya v nastupnomu promizhku chasu viglyadaye tak hn 1 hn1 dn displaystyle eta n 1 frac eta n 1 dn de h displaystyle eta ce koeficiyent shvidkosti navchannya d displaystyle d ye parametrom zagasannya a n displaystyle n ce nomer kroku Krokovij angl step based grafik tempu navchannya zminyuye temp navchannya vidpovidno do deyakih poperedno viznachenih krokiv Formula z urahuvannyam zagasannya viznachayetsya yak hn h0d 1 nr displaystyle eta n eta 0 d left lfloor frac 1 n r right rfloor de hn displaystyle eta n temp navchannya na iteraciyi n displaystyle n h0 displaystyle eta 0 pochatkovij temp navchannya d displaystyle d ce naskilki temp navchannya povinen zminyuvatisya na kozhnomu kroci a r displaystyle r vidpovidaye shvidkosti zmenshennya abo tomu yak chasto slid skidati shvidkist 10 vidpovidaye padinnyu kozhni 10 krokiv Funkciya floor displaystyle lfloor dots rfloor okruglyuye vsi znachennya menshi za 1 do 0 Eksponencijnij angl exponential grafik tempu navchannya shozhij na pokrokovij ale zamist krokiv vikoristovuyetsya eksponencijno spadna funkciya Formula eksponencijnogo grafika viglyadaye yak hn h0e dn displaystyle eta n eta 0 e dn de d displaystyle d ye parametrom zagasannya Adaptivnij temp navchannyaProblema z grafikami tempu navchannya polyagaye v tomu sho vsi voni zalezhat vid giperparametriv yaki potribno obirati vruchnu dlya kozhnogo konkretnogo seansu navchannya i voni mozhut silno vidriznyatisya zalezhno vid zadachi abo vikoristovuvanoyi modeli Dlya podolannya ciyeyi problemi isnuye bagato riznih adaptivnih algoritmiv gradiyentnogo spusku takih yak en Adadelta en ta en yaki zazvichaj vbudovuyutsya v biblioteki glibokogo navchannya taki yak Keras Div takozhGiperparametr mashinne navchannya Optimizaciya giperparametriv Stohastichnij gradiyentnij spusk Metodi zminnoyi metriki Perenavchannya Zvorotne poshirennya AvtoMN Obirannya modeli AvtonalashtuvannyaPrimitkiMurphy Kevin P 2012 Machine Learning A Probabilistic Perspective Cambridge MIT Press s 247 ISBN 978 0 262 01802 9 angl Delyon Bernard 2000 Stochastic Approximation with Decreasing Gain Convergence and Asymptotic Theory Unpublished Lecture Notes Universite de Rennes CiteSeerX 10 1 1 29 4428 angl Buduma Nikhil Locascio Nicholas 2017 Fundamentals of Deep Learning Designing Next Generation Machine Intelligence Algorithms O Reilly s 21 ISBN 978 1 4919 2558 4 angl Patterson Josh Gibson Adam 2017 Understanding Learning Rates Deep Learning A Practitioner s Approach O Reilly s 258 263 ISBN 978 1 4919 1425 0 angl Ruder Sebastian 2017 An Overview of Gradient Descent Optimization Algorithms arXiv 1609 04747 Nesterov Y 2004 Introductory Lectures on Convex Optimization A Basic Course Boston Kluwer s 25 ISBN 1 4020 7553 7 angl Dixon L C W 1972 The Choice of Step Length a Crucial Factor in the Performance of Variable Metric Algorithms Numerical Methods for Non linear Optimization London Academic Press s 149 170 ISBN 0 12 455650 7 angl An empirical study into finding optima in stochastic optimization of neural networks Information Sciences 2021 T 560 7 lipnya S 235 255 arXiv 1903 08552 angl Mutschler Maximus Zell Andreas 2019 Parabolic Approximation Line Search for DNNs arXiv 1903 11991 angl Mahsereci Maren Hennig Phillip 2016 Probabilistic Line Searches for Stochastic Optimization arXiv 1502 02846v4 angl Resolving learning rates adaptively by locating stochastic non negative associated gradient projection points using line searches Journal of Global Optimization 2021 T 79 7 lipnya S 111 152 arXiv 2001 05113 angl Chae Younghwan Wilke Daniel N 2019 Empirical study towards understanding line search approximations for training neural networks arXiv 1909 06893 angl Smith Leslie N 4 kvitnya 2017 Cyclical Learning Rates for Training Neural Networks arXiv 1506 01186 cs CV angl Murphy Kevin 2021 Probabilistic Machine Learning An Introduction MIT Press Procitovano 10 kvitnya 2021 angl Brownlee Jason 22 sichnya 2019 How to Configure the Learning Rate When Training Deep Learning Neural Networks Machine Learning Mastery Procitovano 4 sichnya 2021 angl LiteraturaGeron Aurelien 2017 Gradient Descent Hands On Machine Learning with Scikit Learn and TensorFlow O Reilly s 113 124 ISBN 978 1 4919 6229 9 angl Plagianakos V P Magoulas G D Vrahatis M N 2001 Learning Rate Adaptation in Stochastic Gradient Descent Advances in Convex Analysis and Global Optimization Kluwer s 433 444 ISBN 0 7923 6942 4 angl Posilannyade Freitas Nando 12 lyutogo 2015 Optimization Deep Learning Lecture 6 University of Oxford cherez YouTube angl