В машинному навчанні пробле́ма зника́ння градіє́нту (англ. vanishing gradient problem) виникає при тренуванні штучних нейронних мереж методами навчання на основі градієнту та зворотного поширення. В таких методах кожен з вагових коефіцієнтів нейронної мережі отримує уточнення пропорційно до частинної похідної функції похибки по відношенню до поточної ваги на кожній ітерації тренування. Проблема полягає в тім, що в деяких випадках градієнт буде зникомо малим, тим самим перешкоджаючи вазі змінювати своє значення. В найгіршому випадку це може повністю зупинити нейронну мережу від подальшого натреновування. Як один із прикладів причини цієї проблеми, традиційні передавальні функції, такі як гіперболічний тангенс, мають градієнти в проміжку (0, 1), а зворотне поширення обчислює градієнти за ланцюговим правилом. Це має ефект перемножування n цих малих чисел для обчислення градієнтів перших шарів в n-шаровій мережі, а це означає, що градієнт (сигнал похибки) експоненційно спадає з n, і перші шари тренуються дуже повільно.
Зворотне поширення дозволило дослідникам тренувати керовані глибокі нейронні мережі з нуля, спочатку з невеликим успіхом. [en] праця [en] 1991 року формально ідентифікувала причину цієї невдачі в «проблемі зникання градієнту», яка впливає не лише на багатошарові мережі прямого поширення, а й на рекурентні мережі. Останні тренуються розгортанням їх у дуже глибокі мережі прямого поширення, в яких для кожного моменту часу вхідної послідовності, оброблюваної мережею, створюється новий шар. (Таке поєднання розгортання зі зворотним поширенням називають зворотним поширенням у часі.)
Коли застосовують такі передавальні функції, похідні яких можуть набувати великих значень, виникає ризик зіткнутися з пов'язаною пробле́мою ви́буху градіє́нту (англ. exploding gradient problem).
Розв'язання
Цей розділ містить , що можуть не відповідати вимогам Вікіпедії до . (листопад 2019) |
Багаторівнева ієрархія
Для подолання цієї проблеми було запропоновано декілька методів. Одним з них є багаторівнева ієрархія мереж Юргена Шмідгубера (1992 року), попередньо тренована по одному рівню за раз шляхом некерованого навчання, і тонко налаштовувана зворотним поширенням. Тут кожен рівень навчається стисненого подання спостережень, яке подається до наступного рівня.
Споріднений підхід
Подібні ідеї було застосовано в нейронних мережах прямого поширення для некерованого попереднього тренування, щоби структурувати нейронну мережу, даючи їй спочатку навчитися в цілому корисних [en]. Тоді мережу тренують далі керованим зворотним поширенням, класифікувати мічені дані. Глибока мережа переконань від Гінтона та ін. (2006 року) включає навчання розподілу високорівневого подання із застосуванням послідовних шарів двійкових або дійснозначних латентних змінних. Для моделювання кожного нового шару ознак вищого рівня вона застосовує обмежену машину Больцмана. Кожен новий шар гарантує збільшення нижньої межі логарифмічної правдоподібності даних, тим самим покращуючи модель, за правильного тренування. Після того, як було навчено достатньо багато шарів, цю глибоку архітектуру можна використовувати як породжувальну модель шляхом відтворення даних при здійсненні вибірки вниз по моделі («родовий прохід», англ. "ancestral pass"), починаючи зі збудження ознак найвищого рівня. Гінтон повідомляє, що його моделі є ефективними для виділяння ознак зі структурованих даних високої розмірності.
Довга короткочасна пам'ять
Іншою методикою, що зокрема застосовують для рекурентних нейронних мереж, є мережа довгої короткочасної пам'яті (ДКЧП) 1997 року від [en] та Шмідгубера. 2009 року глибокі багатовимірні мережі ДКЧП продемонстрували потужність глибокого навчання з багатьма нелінійними шарами, вигравши три змагання [en] 2009 року з розпізнавання неперервного рукописного тексту без жодного попереднього знання про три різні мови, яких треба було навчитися.
Швидше апаратне забезпечення
Вдосконалення апаратного забезпечення призвело до того, що з 1991 по 2015 рік обчислювальна потужність (особливо забезпечувана ГП) зросла приблизно в мільйон разів, що робить стандартне зворотне поширення прийнятним для мереж на декілька шарів глибше, ніж коли було усвідомлено проблему зникання градієнту. Шмідгубер зауважує, що це «є, в основному, тим, що нині виграє багато зі змагань з розпізнавання зображень», але що воно «не долає насправді проблему фундаментальним чином», оскільки оригінальні моделі Гінтона та інших, що бралися до проблеми зникання градієнту, було треновано на процесорі Xeon, а не на ГП.
За́лишкові мережі
Одним із найновіших та найдієвіших способів розв'язування проблеми зникання градієнту є застосування за́лишкових нейронних мереж, або ResNet (не плутати з рекурентними нейронними мережами). ResNet називають нейронні мережі, в яких про́пускові з'єднання (англ. skip connections) та за́лишкові з'єднання (англ. residual connections) є частиною архітектури мережі. Ці про́пускові з'єднання дозволяють інформації градієнту проходити крізь шари, створюючи інформаційні «магістралі», в яких вихід попереднього шару/збудження додається до виходу глибшого шару. Це дозволяє інформації з раніших частин мережі передаватися до її глибших частин, що допомагає підтримувати поширення сигналу навіть у глибших мережах. Про́пускові з'єднання є критичною складовою того, що уможливило успішне тренування глибших нейронних мереж.
ResNet видавали нижчу похибку тренування (та похибку перевірки) за свої менш глибокі аналоги, просто повторно вводячи до мережі виходи з менш глибоких рівнів, щоби компенсувати зникання даних. Зауважте, що ResNet є ансамблем відносно неглибоких мереж, і не розв'язують проблему зникання градієнту шляхом зберігання плину градієнту через всю глибину мережі, — натомість, вони уникають цієї проблеми, просто будуючи ансамблі багатьох коротких мереж разом. (Ансамбль за побудовою, англ. Ensemble by Construction)
Інші передавальні функції
Випрямлячі, такі як ReLU, потерпають від проблеми знимання градієнту менше, оскільки вони насичуються лише в одному напрямку.
Інше
Свен Бенке, коли тренував свою (англ. Neural Abstraction Pyramid) для розв'язування задач на кшталт відбудови зображень та локалізації облич, покладався лише на знак градієнту ([en]).[]
Нейронні мережі можливо також оптимізовувати, застосовуючи універсальний алгоритм пошуку на просторі ваг нейронної мережі, наприклад, [en], або, систематичніше, генетичний алгоритм. Цей підхід не ґрунтується на градієнті, й уникає проблеми його зникання.
Див. також
- [en]
Примітки
- Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen (PDF) (Diplom thesis). Institut f. Informatik, Technische Univ. Munich. (нім.)
- Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. У Kremer, S. C.; Kolen, J. F. (ред.). A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press. ISBN . (англ.)
- Goh, Garrett B.; Hodas, Nathan O.; Vishnu, Abhinav (15 червня 2017). Deep learning for computational chemistry. Journal of Computational Chemistry (англ.). 38 (16): 1291—1307. arXiv:1701.04503. Bibcode:2017arXiv170104503G. doi:10.1002/jcc.24764. PMID 28272810. S2CID 6831636. (англ.)
- Pascanu, Razvan; Mikolov, Tomas; Bengio, Yoshua (21 листопада 2012). On the difficulty of training Recurrent Neural Networks. arXiv:1211.5063 [cs.LG]. (англ.)
- J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992. (англ.)
- Hinton, G. E.; Osindero, S.; Teh, Y. (2006). A fast learning algorithm for deep belief nets (PDF). [en]. 18 (7): 1527—1554. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. (англ.)
- Hinton, G. (2009). Deep belief networks. Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947. (англ.)
- ; Schmidhuber, Jürgen (1997). Long Short-Term Memory. Neural Computation. 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014. (англ.)
- Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 (англ.)
- Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (2009). A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855—868. CiteSeerX 10.1.1.139.4502. doi:10.1109/tpami.2008.137. PMID 19299860. S2CID 14635907. (англ.)
- Schmidhuber, Jürgen (2015). Deep learning in neural networks: An overview. Neural Networks. 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509. (англ.)
- Residual neural networks are an exciting area of deep learning research. 28 квітня 2016.
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () (англ.) - http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf (англ.)
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385 [cs.CV]. (англ.)
- ResNets, HighwayNets, and DenseNets, Oh My! – Chatbot's Life. 14 жовтня 2016. (англ.)
- Veit, Andreas; Wilber, Michael; Belongie, Serge (20 травня 2016). Residual Networks Behave Like Ensembles of Relatively Shallow Networks. arXiv:1605.06431 [cs.CV]. (англ.)
- Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (14 червня 2011). Deep Sparse Rectifier Neural Networks. PMLR (англ.): 315—323. (англ.)
- Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation (PDF). Lecture Notes in Computer Science. Т. 2766. Springer. (англ.)
- Sepp Hochreiter's Fundamental Deep Learning Problem (1991). people.idsia.ch. Процитовано 7 січня 2017. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
V mashinnomu navchanni proble ma znika nnya gradiye ntu angl vanishing gradient problem vinikaye pri trenuvanni shtuchnih nejronnih merezh metodami navchannya na osnovi gradiyentu ta zvorotnogo poshirennya V takih metodah kozhen z vagovih koeficiyentiv nejronnoyi merezhi otrimuye utochnennya proporcijno do chastinnoyi pohidnoyi funkciyi pohibki po vidnoshennyu do potochnoyi vagi na kozhnij iteraciyi trenuvannya Problema polyagaye v tim sho v deyakih vipadkah gradiyent bude znikomo malim tim samim pereshkodzhayuchi vazi zminyuvati svoye znachennya V najgirshomu vipadku ce mozhe povnistyu zupiniti nejronnu merezhu vid podalshogo natrenovuvannya Yak odin iz prikladiv prichini ciyeyi problemi tradicijni peredavalni funkciyi taki yak giperbolichnij tangens mayut gradiyenti v promizhku 0 1 a zvorotne poshirennya obchislyuye gradiyenti za lancyugovim pravilom Ce maye efekt peremnozhuvannya n cih malih chisel dlya obchislennya gradiyentiv pershih shariv v n sharovij merezhi a ce oznachaye sho gradiyent signal pohibki eksponencijno spadaye z n i pershi shari trenuyutsya duzhe povilno Zvorotne poshirennya dozvolilo doslidnikam trenuvati kerovani gliboki nejronni merezhi z nulya spochatku z nevelikim uspihom en pracya en 1991 roku formalno identifikuvala prichinu ciyeyi nevdachi v problemi znikannya gradiyentu yaka vplivaye ne lishe na bagatosharovi merezhi pryamogo poshirennya a j na rekurentni merezhi Ostanni trenuyutsya rozgortannyam yih u duzhe gliboki merezhi pryamogo poshirennya v yakih dlya kozhnogo momentu chasu vhidnoyi poslidovnosti obroblyuvanoyi merezheyu stvoryuyetsya novij shar Take poyednannya rozgortannya zi zvorotnim poshirennyam nazivayut zvorotnim poshirennyam u chasi Koli zastosovuyut taki peredavalni funkciyi pohidni yakih mozhut nabuvati velikih znachen vinikaye rizik zitknutisya z pov yazanoyu proble moyu vi buhu gradiye ntu angl exploding gradient problem Rozv yazannyaCej rozdil mistit posilannya na dzherela sho mozhut ne vidpovidati vimogam Vikipediyi do avtoritetnih dzherel Bud laska perevirte chi vidpovidayut vkazanim kriteriyam dzherela vikoristani v comu rozdili listopad 2019 Bagatorivneva iyerarhiya Dlya podolannya ciyeyi problemi bulo zaproponovano dekilka metodiv Odnim z nih ye bagatorivneva iyerarhiya merezh Yurgena Shmidgubera 1992 roku poperedno trenovana po odnomu rivnyu za raz shlyahom nekerovanogo navchannya i tonko nalashtovuvana zvorotnim poshirennyam Tut kozhen riven navchayetsya stisnenogo podannya sposterezhen yake podayetsya do nastupnogo rivnya Sporidnenij pidhid Podibni ideyi bulo zastosovano v nejronnih merezhah pryamogo poshirennya dlya nekerovanogo poperednogo trenuvannya shobi strukturuvati nejronnu merezhu dayuchi yij spochatku navchitisya v cilomu korisnih en Todi merezhu trenuyut dali kerovanim zvorotnim poshirennyam klasifikuvati micheni dani Gliboka merezha perekonan vid Gintona ta in 2006 roku vklyuchaye navchannya rozpodilu visokorivnevogo podannya iz zastosuvannyam poslidovnih shariv dvijkovih abo dijsnoznachnih latentnih zminnih Dlya modelyuvannya kozhnogo novogo sharu oznak vishogo rivnya vona zastosovuye obmezhenu mashinu Bolcmana Kozhen novij shar garantuye zbilshennya nizhnoyi mezhi logarifmichnoyi pravdopodibnosti danih tim samim pokrashuyuchi model za pravilnogo trenuvannya Pislya togo yak bulo navcheno dostatno bagato shariv cyu gliboku arhitekturu mozhna vikoristovuvati yak porodzhuvalnu model shlyahom vidtvorennya danih pri zdijsnenni vibirki vniz po modeli rodovij prohid angl ancestral pass pochinayuchi zi zbudzhennya oznak najvishogo rivnya Ginton povidomlyaye sho jogo modeli ye efektivnimi dlya vidilyannya oznak zi strukturovanih danih visokoyi rozmirnosti Dovga korotkochasna pam yat Dokladnishe Dovga korotkochasna pam yat Inshoyu metodikoyu sho zokrema zastosovuyut dlya rekurentnih nejronnih merezh ye merezha dovgoyi korotkochasnoyi pam yati DKChP 1997 roku vid en ta Shmidgubera 2009 roku gliboki bagatovimirni merezhi DKChP prodemonstruvali potuzhnist glibokogo navchannya z bagatma nelinijnimi sharami vigravshi tri zmagannya en 2009 roku z rozpiznavannya neperervnogo rukopisnogo tekstu bez zhodnogo poperednogo znannya pro tri rizni movi yakih treba bulo navchitisya Shvidshe aparatne zabezpechennya Vdoskonalennya aparatnogo zabezpechennya prizvelo do togo sho z 1991 po 2015 rik obchislyuvalna potuzhnist osoblivo zabezpechuvana GP zrosla priblizno v miljon raziv sho robit standartne zvorotne poshirennya prijnyatnim dlya merezh na dekilka shariv glibshe nizh koli bulo usvidomleno problemu znikannya gradiyentu Shmidguber zauvazhuye sho ce ye v osnovnomu tim sho nini vigraye bagato zi zmagan z rozpiznavannya zobrazhen ale sho vono ne dolaye naspravdi problemu fundamentalnim chinom oskilki originalni modeli Gintona ta inshih sho bralisya do problemi znikannya gradiyentu bulo trenovano na procesori Xeon a ne na GP Za lishkovi merezhi Odnim iz najnovishih ta najdiyevishih sposobiv rozv yazuvannya problemi znikannya gradiyentu ye zastosuvannya za lishkovih nejronnih merezh abo ResNet ne plutati z rekurentnimi nejronnimi merezhami ResNet nazivayut nejronni merezhi v yakih pro puskovi z yednannya angl skip connections ta za lishkovi z yednannya angl residual connections ye chastinoyu arhitekturi merezhi Ci pro puskovi z yednannya dozvolyayut informaciyi gradiyentu prohoditi kriz shari stvoryuyuchi informacijni magistrali v yakih vihid poperednogo sharu zbudzhennya dodayetsya do vihodu glibshogo sharu Ce dozvolyaye informaciyi z ranishih chastin merezhi peredavatisya do yiyi glibshih chastin sho dopomagaye pidtrimuvati poshirennya signalu navit u glibshih merezhah Pro puskovi z yednannya ye kritichnoyu skladovoyu togo sho umozhlivilo uspishne trenuvannya glibshih nejronnih merezh ResNet vidavali nizhchu pohibku trenuvannya ta pohibku perevirki za svoyi mensh gliboki analogi prosto povtorno vvodyachi do merezhi vihodi z mensh glibokih rivniv shobi kompensuvati znikannya danih Zauvazhte sho ResNet ye ansamblem vidnosno neglibokih merezh i ne rozv yazuyut problemu znikannya gradiyentu shlyahom zberigannya plinu gradiyentu cherez vsyu glibinu merezhi natomist voni unikayut ciyeyi problemi prosto buduyuchi ansambli bagatoh korotkih merezh razom Ansambl za pobudovoyu angl Ensemble by Construction Inshi peredavalni funkciyi Vipryamlyachi taki yak ReLU poterpayut vid problemi znimannya gradiyentu menshe oskilki voni nasichuyutsya lishe v odnomu napryamku Inshe Sven Benke koli trenuvav svoyu angl Neural Abstraction Pyramid dlya rozv yazuvannya zadach na kshtalt vidbudovi zobrazhen ta lokalizaciyi oblich pokladavsya lishe na znak gradiyentu en dzherelo Nejronni merezhi mozhlivo takozh optimizovuvati zastosovuyuchi universalnij algoritm poshuku na prostori vag nejronnoyi merezhi napriklad en abo sistematichnishe genetichnij algoritm Cej pidhid ne gruntuyetsya na gradiyenti j unikaye problemi jogo znikannya Div takozh en PrimitkiHochreiter S 1991 Untersuchungen zu dynamischen neuronalen Netzen PDF Diplom thesis Institut f Informatik Technische Univ Munich nim Hochreiter S Bengio Y Frasconi P Schmidhuber J 2001 Gradient flow in recurrent nets the difficulty of learning long term dependencies U Kremer S C Kolen J F red A Field Guide to Dynamical Recurrent Neural Networks IEEE Press ISBN 0 7803 5369 2 angl Goh Garrett B Hodas Nathan O Vishnu Abhinav 15 chervnya 2017 Deep learning for computational chemistry Journal of Computational Chemistry angl 38 16 1291 1307 arXiv 1701 04503 Bibcode 2017arXiv170104503G doi 10 1002 jcc 24764 PMID 28272810 S2CID 6831636 angl Pascanu Razvan Mikolov Tomas Bengio Yoshua 21 listopada 2012 On the difficulty of training Recurrent Neural Networks arXiv 1211 5063 cs LG angl J Schmidhuber Learning complex extended sequences using the principle of history compression Neural Computation 4 pp 234 242 1992 angl Hinton G E Osindero S Teh Y 2006 A fast learning algorithm for deep belief nets PDF en 18 7 1527 1554 CiteSeerX 10 1 1 76 1541 doi 10 1162 neco 2006 18 7 1527 PMID 16764513 angl Hinton G 2009 Deep belief networks Scholarpedia 4 5 5947 Bibcode 2009SchpJ 4 5947H doi 10 4249 scholarpedia 5947 angl Schmidhuber Jurgen 1997 Long Short Term Memory Neural Computation 9 8 1735 1780 doi 10 1162 neco 1997 9 8 1735 PMID 9377276 S2CID 1915014 angl Graves Alex and Schmidhuber Jurgen Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks in Bengio Yoshua Schuurmans Dale Lafferty John Williams Chris K I and Culotta Aron eds Advances in Neural Information Processing Systems 22 NIPS 22 December 7th 10th 2009 Vancouver BC Neural Information Processing Systems NIPS Foundation 2009 pp 545 552 angl Graves A Liwicki M Fernandez S Bertolami R Bunke H Schmidhuber J 2009 A Novel Connectionist System for Improved Unconstrained Handwriting Recognition IEEE Transactions on Pattern Analysis and Machine Intelligence 31 5 855 868 CiteSeerX 10 1 1 139 4502 doi 10 1109 tpami 2008 137 PMID 19299860 S2CID 14635907 angl Schmidhuber Jurgen 2015 Deep learning in neural networks An overview Neural Networks 61 85 117 arXiv 1404 7828 doi 10 1016 j neunet 2014 09 003 PMID 25462637 S2CID 11715509 angl Residual neural networks are an exciting area of deep learning research 28 kvitnya 2016 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya angl http www fit vutbr cz research groups speech servite 2010 rnnlm mikolov pdf angl He Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 2015 Deep Residual Learning for Image Recognition arXiv 1512 03385 cs CV angl ResNets HighwayNets and DenseNets Oh My Chatbot s Life 14 zhovtnya 2016 angl Veit Andreas Wilber Michael Belongie Serge 20 travnya 2016 Residual Networks Behave Like Ensembles of Relatively Shallow Networks arXiv 1605 06431 cs CV angl Glorot Xavier Bordes Antoine Bengio Yoshua 14 chervnya 2011 Deep Sparse Rectifier Neural Networks PMLR angl 315 323 angl Sven Behnke 2003 Hierarchical Neural Networks for Image Interpretation PDF Lecture Notes in Computer Science T 2766 Springer angl Sepp Hochreiter s Fundamental Deep Learning Problem 1991 people idsia ch Procitovano 7 sichnya 2017 angl