Стохастичний градієнтний спуск (англ. stochastic gradient descent, incremental gradient descent) — ітеративний метод оптимізації градієнтного спуску за допомогою [en]. Використовується для прискорення пошуку цільової функції шляхом використання обмеженого за розміром тренувального набору, який вибирається випадково при кожній ітерації.
Недавня стаття недвозначно приписує розробку метода Герберту Роббінсу та Саттону Монро (англ. Sutton Monro), які описали його у статті 1951 року «Метод стохастичного наближення» (англ. A Stochastic Approximation Method).
Основна ідея
Градієнтні методи — це широкий клас оптимізаційних алгоритмів, які використовують не лише в машинному навчанні. В даному випадку градієнтний підхід буде розглядатись як спосіб підбору векторів синаптичних ваг в лінійному класифікаторі. Нехай — цільова залежність, яка відома лише на об'єктах навчальної вибірки: .
Знайдемо алгоритм , що апроксимує залежність . У випадку лінійного класифікатора шуканий алгоритм має вигляд:
- ,
де грає роль функції активації (в найпростішому випадку можна використовувати ).
Згідно з принципом мінімізації емпіричного ризику, для цього достатньо вирішити оптимізаційну задачу:
- ,
де — задана функція втрат.
Позначимо через значення функції втрат на -му спостереженні. Тоді,
Для мінімізації використаємо метод градієнтного спуску. Це покроковий алгоритм, на кожній ітерації якого вектор змінюється в напрямку найбільшого спадання функціоналу (тобто в напрямку протилежному градієнту):
де — додатній параметр, який називається швидкістю навчання.
Існують такі підходи в реалізації градієнтного спуску:
- Пакетний (batch), коли на кожній ітерації навчальна вибірка переглядається цілком, тільки після чого змінюється . Такий підхід потребує великих обчислювальних затрат та дуже добре надається при паралельних обчисленнях.
- Стохастичний (stochastic/online), коли на кожній ітерації алгоритму з навчальної вибірки випадковим чином обирається лише один об'єкт. Таким чином вектор налаштовується кожен раз на новобраний об'єкт.
Алгоритм
Вхід:
- — навчальна вибірка
- — темп навчання
- — параметр згладжування функціоналу
Вихід:
- Вектор ваг
Тіло:
- Ініціалізувати ваги , (, де — розмірність простору ознак);
- Ініціалізувати поточну оцінку функціоналу:
- ;
- Повторювати:
- Вибрати об'єкт із (наприклад, випадковим чином);
- Обчислити вихідне значення алгоритму та помилку:
- ;
- Зробити крок градієнтного спуску:
- ;
- Оцінити значення функціоналу:
- ;
- Поки значення не стабілізується та/або ваги не припинять змінюватись.
Порядок вибору об'єктів
Вище сказано, що у випадку стохастичного градієнтного спуску об'єкти слід обирати випадковим чином. Однак існують евристики, що направлені на покращення збіжності, які дещо модифікують звичайний випадковий вибір:
- Перемішування (shuffling). Пропонується випадково обирати об'єкти, але поперемінно з різних класів. Ідея в тому, що об'єкти з різних класів скоріше за все менш «схожі», ніж об'єкти з одного класу, тому вектор буде кожного разу змінюватись сильніше.
- Можливий варіант алгоритму, коли вибір кожного об'єкта нерівноймовірний, при чому ймовірність випадення об'єкта обернено пропорційна величині помилки на об'єкті. Слід зауважити, що за такої евристики метод стає дуже чутливим до шумів.
Способи ініціалізації ваг
- Ініціалізувати вектор нулями. Цей спосіб використовується в багатьох системах, але не завжди є найкращим.
- , де — розмірність простору ознак. Цей метод більш вдалий, ніж попередній, якщо відповідним чином нормалізувати опис ознак. (див. «Недоліки та способи боротьби з ними».)
- Ще один підхід полягає в тому, щоб вирішити вихідну задачу оптимізації у випадку статистично незалежних ознак, лінійної функції активації () та квадратичної функції втрат (). Тоді рішення має вигляд:
- .
Параметр згладжування
В алгоритмі для оцінки функціоналу на кожній ітерації використовується його наближене значення за методом експоненціального згладжування, звідки краще брати порядку . Якщо довжина вибірки надмірно велика, то слід збільшувати.
Деякі окремі випадки алгоритму
Метод стохастичного градієнта (за відповідного вибору функцій активації та втрат) є узагальненням таких широко розповсюджених евристик підбору та алгоритмів класифікації:
Переваги методу
- Метод пристосований для динамічного (online) навчання, коли навчальні об'єкти надходять потоком, та потрібно швидко оновлювати вектор .
- Алгоритм здатен навчатись на надмірно великих вибірках за рахунок того, що випадкової підвибірки може вистачати для навчання.
- Можливі різноманітні стратегії навчання. Якщо вибірка надмірно велика, або навчання відбувається динамічно, то є допустимим не зберігати навчальні об'єкти. Якщо вибірка маленька, то можна повторно подавати для навчання ті самі об'єкти.
Недоліки та способи боротьби з ними
- Алгоритм може не збігатись або збігатись занадто повільно (див. «Збіжність алгоритму».)
- Як правило, функціонал має багато екстремумів та процес градієнтного спуску може «застрягти» на одному із локальних мінімумів. Для боротьби з цим використовують техніку струшування коефіцієнтів (англ. jog of weights). Вона полягає у тому, що при кожній стабілізації функціонала робити випадкові модифікації вектора в достатньо широкому околі поточного значення та запускати процес градієнтного спуску з нових точок.
- За великої розмірності простору ознак та/або малої довжини вибірки можливе перенавчання, тобто класифікація стає нестійкою, і ймовірність помилки збільшується. При цьому сильно виростає норма вектора ваг. Для боротьби з цим недоліком використовують регуляризацію Тихонова. Він полягає в тому, щоб обмежити можливий ріст норми , додавши до штрафний доданок:
- .
В результаті правило обновлення ваг приймає вигляд:
- .
- Якщо функція активації має горизонтальні асимптоти, то процес може потрапити в стан («паралічу»). За великих значень скалярного добутку значення стає близьким до нуля і вектор перестає суттєво змінюватися. Тому звичною практикою є попередня нормалізація ознак:
- , де — відповідно мінімальне та максимальне відхилення j-ї ознаки. Якщо при цьому , то
Відзначимо, що регуляризація також є способом попередження «паралічу».
Збіжність алгоритму
Як вже було сказано, збіжність в загальному випадку не гарантується, але встановлено, що у випадку опуклої функції та при виконанні таких трьох умов:
- ;
- ;
процес градієнтного спуску буде збіжним. Наприклад, можна закласти: . Проте, як свідчить практика, це не дуже вдалий спосіб.
Примітки
- Mei, Song (2018). A mean field view of the landscape of two-layer neural networks. Proceedings of the National Academy of Sciences. doi:10.1073/pnas.1806579115.
- Herbert Robbins, Sutton Monro (September 1951). A stochastic approximation method. The Annals of Mathematical Statistics. 22 (3): 400—407. JSTOR 2236626.
Література
- Машинное обучение (курс лекций, К. В. Воронцов) (рос.)
- Stochastic Learning (англ.)
- Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). 5.9 Stochastic gradient descent. Deep Learning. MIT Press. с. 149—150. ISBN . (англ.)
- (2004), Stochastic Learning, Advanced Lectures on Machine Learning, LNAI, т. 3176, Springer, с. 146—168, ISBN (англ.)
- Buduma, Nikhil; Locascio, Nicholas (2017), Beyond Gradient Descent, Fundamentals of Deep Learning : Designing Next-Generation Machine Intelligence Algorithms, O'Reilly (англ.)
- LeCun, Yann A.; Bottou, Léon; Orr, Genevieve B.; Müller, Klaus-Robert (2012), Efficient BackProp, Neural Networks: Tricks of the Trade, Springer, с. 9—48, ISBN (англ.)
- Spall, James C. (2003), Introduction to Stochastic Search and Optimization, , ISBN (англ.)
- Використання стохастичного градієнту в C++, Boost, Ublas для лінійної регресії (англ.)
- Алгоритми машинного навчання (англ.)
- Goh (4 квітня 2017). Why Momentum Really Works. .Gradient Descent, How Neural Networks Learn. 3Blue1Brown. 16 жовтня 2017 — через YouTube. Інтерактивна стаття з поясненням моментів. (англ.)
Це незавершена стаття про алгоритми. Ви можете проєкту, виправивши або дописавши її. |
Це незавершена стаття зі штучного інтелекту. Ви можете проєкту, виправивши або дописавши її. |
В іншому мовному розділі є повніша стаття Stochastic gradient descent(англ.). Ви можете допомогти, розширивши поточну статтю за допомогою з англійської. (серпень 2022)
|
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Stohastichnij gradiyentnij spusk angl stochastic gradient descent incremental gradient descent iterativnij metod optimizaciyi gradiyentnogo spusku za dopomogoyu en Vikoristovuyetsya dlya priskorennya poshuku cilovoyi funkciyi shlyahom vikoristannya obmezhenogo za rozmirom trenuvalnogo naboru yakij vibirayetsya vipadkovo pri kozhnij iteraciyi Nedavnya stattya nedvoznachno pripisuye rozrobku metoda Gerbertu Robbinsu ta Sattonu Monro angl Sutton Monro yaki opisali jogo u statti 1951 roku Metod stohastichnogo nablizhennya angl A Stochastic Approximation Method Osnovna ideyaGradiyentni metodi ce shirokij klas optimizacijnih algoritmiv yaki vikoristovuyut ne lishe v mashinnomu navchanni V danomu vipadku gradiyentnij pidhid bude rozglyadatis yak sposib pidboru vektoriv sinaptichnih vag w displaystyle w v linijnomu klasifikatori Nehaj y X Y displaystyle y X to Y cilova zalezhnist yaka vidoma lishe na ob yektah navchalnoyi vibirki Xn xi yi i 1n yi y xi displaystyle X n x i y i i 1 n y i y x i Znajdemo algoritm a x w displaystyle a x w sho aproksimuye zalezhnist y displaystyle y U vipadku linijnogo klasifikatora shukanij algoritm maye viglyad a x w f j 1nwjxj w0 displaystyle a x w varphi left sum j 1 n w j x j w 0 right de f z displaystyle varphi z graye rol funkciyi aktivaciyi v najprostishomu vipadku mozhna vikoristovuvati f z sgn z displaystyle varphi z operatorname sgn z Zgidno z principom minimizaciyi empirichnogo riziku dlya cogo dostatno virishiti optimizacijnu zadachu Q w 1n i 1nL a xi w yi minw displaystyle Q w frac 1 n sum i 1 n L a x i w y i to min w de L a y displaystyle L a y zadana funkciya vtrat Poznachimo cherez Qi w displaystyle Q i w znachennya funkciyi vtrat na i displaystyle i mu sposterezhenni Todi Q w 1n i 1nQi w displaystyle Q w frac 1 n sum i 1 n Q i w Dlya minimizaciyi vikoristayemo metod gradiyentnogo spusku Ce pokrokovij algoritm na kozhnij iteraciyi yakogo vektor w displaystyle w zminyuyetsya v napryamku najbilshogo spadannya funkcionalu Q displaystyle Q tobto v napryamku protilezhnomu gradiyentu w w h Q w w hn i 1n Qi w displaystyle w w eta nabla Q w w frac eta n sum i 1 n nabla Q i w de h displaystyle eta dodatnij parametr yakij nazivayetsya shvidkistyu navchannya Isnuyut taki pidhodi v realizaciyi gradiyentnogo spusku Paketnij batch koli na kozhnij iteraciyi navchalna vibirka pereglyadayetsya cilkom tilki pislya chogo zminyuyetsya w displaystyle w Takij pidhid potrebuye velikih obchislyuvalnih zatrat ta duzhe dobre nadayetsya pri paralelnih obchislennyah Stohastichnij stochastic online koli na kozhnij iteraciyi algoritmu z navchalnoyi vibirki vipadkovim chinom obirayetsya lishe odin ob yekt Takim chinom vektor w displaystyle w nalashtovuyetsya kozhen raz na novobranij ob yekt AlgoritmVhid Xn displaystyle X n navchalna vibirka h displaystyle eta temp navchannya l displaystyle lambda parametr zgladzhuvannya funkcionalu Q displaystyle Q Vihid Vektor vag w displaystyle w Tilo Inicializuvati vagi wj displaystyle w j j 0 k displaystyle j 0 dots k de k displaystyle k rozmirnist prostoru oznak Inicializuvati potochnu ocinku funkcionalu Q i 1nL a xi w yi displaystyle Q sum i 1 n L a x i w y i Povtoryuvati Vibrati ob yekt xi displaystyle x i iz Xn displaystyle X n napriklad vipadkovim chinom Obchisliti vihidne znachennya algoritmu a xi w displaystyle a x i w ta pomilku ei L a xi w yi displaystyle varepsilon i L a x i w y i Zrobiti krok gradiyentnogo spusku w w hLa a xi w yi f w xi xi displaystyle w w eta L a prime left a x i w y i right varphi prime left langle w x i rangle right x i Ociniti znachennya funkcionalu Q 1 l Q lei displaystyle Q 1 lambda Q lambda varepsilon i Poki znachennya Q displaystyle Q ne stabilizuyetsya ta abo vagi w displaystyle w ne pripinyat zminyuvatis Poryadok viboru ob yektiv Vishe skazano sho u vipadku stohastichnogo gradiyentnogo spusku ob yekti slid obirati vipadkovim chinom Odnak isnuyut evristiki sho napravleni na pokrashennya zbizhnosti yaki desho modifikuyut zvichajnij vipadkovij vibir Peremishuvannya shuffling Proponuyetsya vipadkovo obirati ob yekti ale popereminno z riznih klasiv Ideya v tomu sho ob yekti z riznih klasiv skorishe za vse mensh shozhi nizh ob yekti z odnogo klasu tomu vektor w displaystyle w bude kozhnogo razu zminyuvatis silnishe Mozhlivij variant algoritmu koli vibir kozhnogo ob yekta nerivnojmovirnij pri chomu jmovirnist vipadennya ob yekta oberneno proporcijna velichini pomilki na ob yekti Slid zauvazhiti sho za takoyi evristiki metod staye duzhe chutlivim do shumiv Sposobi inicializaciyi vag Inicializuvati vektor w displaystyle w nulyami Cej sposib vikoristovuyetsya v bagatoh sistemah ale ne zavzhdi ye najkrashim wj rand 1k 1k displaystyle w j rand left frac 1 k frac 1 k right de k displaystyle k rozmirnist prostoru oznak Cej metod bilsh vdalij nizh poperednij yaksho vidpovidnim chinom normalizuvati opis oznak div Nedoliki ta sposobi borotbi z nimi She odin pidhid polyagaye v tomu shob virishiti vihidnu zadachu optimizaciyi u vipadku statistichno nezalezhnih oznak linijnoyi funkciyi aktivaciyi f displaystyle varphi ta kvadratichnoyi funkciyi vtrat L displaystyle L Todi rishennya maye viglyad wj y fj fj fj displaystyle w j frac langle y f j rangle langle f j f j rangle Parametr zgladzhuvannya V algoritmi dlya ocinki funkcionalu Q displaystyle Q na kozhnij iteraciyi vikoristovuyetsya jogo nablizhene znachennya za metodom eksponencialnogo zgladzhuvannya zvidki l displaystyle lambda krashe brati poryadku 1n displaystyle frac 1 n Yaksho dovzhina vibirki nadmirno velika to l displaystyle lambda slid zbilshuvati Deyaki okremi vipadki algoritmu Metod stohastichnogo gradiyenta za vidpovidnogo viboru funkcij aktivaciyi ta vtrat ye uzagalnennyam takih shiroko rozpovsyudzhenih evristik pidboru w displaystyle w ta algoritmiv klasifikaciyi Adaptivnij linijnij element ADALINE Pravilo Hebba Algoritm k serednih en LVQ Perevagi metoduMetod pristosovanij dlya dinamichnogo online navchannya koli navchalni ob yekti nadhodyat potokom ta potribno shvidko onovlyuvati vektor w displaystyle w Algoritm zdaten navchatis na nadmirno velikih vibirkah za rahunok togo sho vipadkovoyi pidvibirki mozhe vistachati dlya navchannya Mozhlivi riznomanitni strategiyi navchannya Yaksho vibirka nadmirno velika abo navchannya vidbuvayetsya dinamichno to ye dopustimim ne zberigati navchalni ob yekti Yaksho vibirka malenka to mozhna povtorno podavati dlya navchannya ti sami ob yekti Nedoliki ta sposobi borotbi z nimiAlgoritm mozhe ne zbigatis abo zbigatis zanadto povilno div Zbizhnist algoritmu Yak pravilo funkcional Q displaystyle Q maye bagato ekstremumiv ta proces gradiyentnogo spusku mozhe zastryagti na odnomu iz lokalnih minimumiv Dlya borotbi z cim vikoristovuyut tehniku strushuvannya koeficiyentiv angl jog of weights Vona polyagaye u tomu sho pri kozhnij stabilizaciyi funkcionala robiti vipadkovi modifikaciyi vektora w displaystyle w v dostatno shirokomu okoli potochnogo znachennya ta zapuskati proces gradiyentnogo spusku z novih tochok Za velikoyi rozmirnosti prostoru oznak k displaystyle k ta abo maloyi dovzhini vibirki n displaystyle n mozhlive perenavchannya tobto klasifikaciya staye nestijkoyu i jmovirnist pomilki zbilshuyetsya Pri comu silno virostaye norma vektora vag Dlya borotbi z cim nedolikom vikoristovuyut regulyarizaciyu Tihonova Vin polyagaye v tomu shob obmezhiti mozhlivij rist normi w displaystyle w dodavshi do Q w displaystyle Q w shtrafnij dodanok Qt w Q w t2 w 2 displaystyle Q tau w Q w frac tau 2 w 2 V rezultati pravilo obnovlennya vag prijmaye viglyad w w 1 ht h Q w displaystyle w w 1 eta tau eta nabla Q w Yaksho funkciya aktivaciyi maye gorizontalni asimptoti to proces mozhe potrapiti v stan paralichu Za velikih znachen skalyarnogo dobutku w xi displaystyle langle w x i rangle znachennya f displaystyle varphi prime staye blizkim do nulya i vektor w displaystyle w perestaye suttyevo zminyuvatisya Tomu zvichnoyu praktikoyu ye poperednya normalizaciya oznak xj xj xminjxmaxj xminj j 1 k displaystyle x j frac x j x min j x max j x min j j 1 dots k de xminj xmaxj displaystyle x min j x max j vidpovidno minimalne ta maksimalne vidhilennya j yi oznaki Yaksho pri comu wj 1k 1k displaystyle w j in left frac 1 k frac 1 k right to w x 1 1 displaystyle langle w x rangle in 1 1 Vidznachimo sho regulyarizaciya takozh ye sposobom poperedzhennya paralichu Zbizhnist algoritmuYak vzhe bulo skazano zbizhnist v zagalnomu vipadku ne garantuyetsya ale vstanovleno sho u vipadku opukloyi funkciyi Q w displaystyle Q w ta pri vikonanni takih troh umov ht t 0 displaystyle eta t xrightarrow t to infty 0 t 1 ht displaystyle sum t 1 infty eta t infty t 1 ht2 lt displaystyle sum t 1 infty eta t 2 lt infty proces gradiyentnogo spusku bude zbizhnim Napriklad mozhna zaklasti ht h0t displaystyle eta t frac eta 0 t Prote yak svidchit praktika ce ne duzhe vdalij sposib PrimitkiMei Song 2018 A mean field view of the landscape of two layer neural networks Proceedings of the National Academy of Sciences doi 10 1073 pnas 1806579115 Herbert Robbins Sutton Monro September 1951 A stochastic approximation method The Annals of Mathematical Statistics 22 3 400 407 JSTOR 2236626 LiteraturaMashinnoe obuchenie kurs lekcij K V Voroncov ros Stochastic Learning angl Goodfellow Ian Bengio Yoshua Courville Aaron 2016 5 9 Stochastic gradient descent Deep Learning MIT Press s 149 150 ISBN 978 0262035613 angl 2004 Stochastic Learning Advanced Lectures on Machine Learning LNAI t 3176 Springer s 146 168 ISBN 978 3 540 23122 6 angl Buduma Nikhil Locascio Nicholas 2017 Beyond Gradient Descent Fundamentals of Deep Learning Designing Next Generation Machine Intelligence Algorithms O Reilly angl LeCun Yann A Bottou Leon Orr Genevieve B Muller Klaus Robert 2012 Efficient BackProp Neural Networks Tricks of the Trade Springer s 9 48 ISBN 978 3 642 35288 1 angl Spall James C 2003 Introduction to Stochastic Search and Optimization Wiley ISBN 978 0 471 33052 3 angl Vikoristannya stohastichnogo gradiyentu v C Boost Ublas dlya linijnoyi regresiyi angl Algoritmi mashinnogo navchannya angl Goh 4 kvitnya 2017 Why Momentum Really Works Gradient Descent How Neural Networks Learn 3Blue1Brown 16 zhovtnya 2017 cherez YouTube Interaktivna stattya z poyasnennyam momentiv angl Ce nezavershena stattya pro algoritmi Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi Ce nezavershena stattya zi shtuchnogo intelektu Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi V inshomu movnomu rozdili ye povnisha stattya Stochastic gradient descent angl Vi mozhete dopomogti rozshirivshi potochnu stattyu za dopomogoyu perekladu z anglijskoyi serpen 2022 Divitis avtoperekladenu versiyu statti z movi anglijska Perekladach povinen rozumiti sho vidpovidalnist za kincevij vmist statti u Vikipediyi nese same avtor redaguvan Onlajn pereklad nadayetsya lishe yak korisnij instrument pereglyadu vmistu zrozumiloyu movoyu Ne vikoristovujte nevichitanij i nevidkorigovanij mashinnij pereklad u stattyah ukrayinskoyi Vikipediyi Mashinnij pereklad Google ye korisnoyu vidpravnoyu tochkoyu dlya perekladu ale perekladacham neobhidno vipravlyati pomilki ta pidtverdzhuvati tochnist perekladu a ne prosto skopiyuvati mashinnij pereklad do ukrayinskoyi Vikipediyi Ne perekladajte tekst yakij vidayetsya nedostovirnim abo neyakisnim Yaksho mozhlivo perevirte tekst za posilannyami podanimi v inshomovnij statti Dokladni rekomendaciyi div Vikipediya Pereklad