За́лишкова нейро́нна мере́жа (англ. residual neural network, ResNet) — це штучна нейронна мережа (ШНМ), яка будується на структурах, відомих за [en] кори головного мозку. Залишкові нейронні мережі роблять це, використовуючи про́пускові з'є́днання (англ. skip connections) або зрізання (англ. shortcuts) для перескакування через деякі шари. Типові моделі ResNet втілюють із подвійними або потрійними пропусканнями шарів, з нелінійностями (ReLU) чи [en] посередині. Для навчання пропускових ваг можуть використовувати додаткову матрицю ваг; ці моделі відомі як HighwayNet. Моделі з кількома паралельними пропусками називають DenseNet. У контексті залишкових нейронних мереж незалишкову мережу можуть описувати як просту мережу (англ. plain network).
Існує дві основні причини для додавання пропускових з'єднань: задля уникання проблеми зникання градієнтів, та задля пом'якшення проблеми виродження (англ. degradation problem, насичення точності, англ. accuracy saturation), за якої додавання додаткових шарів до належно глибокої моделі призводить до більшої тренувальної похибки. Під час тренування ваги пристосовуються приглушувати вищий за течією шар[: ком.] та підсилювати попередньо пропущений шар. У найпростішому випадку пристосовуються лише ваги для з'єднання сусіднього шару, без жодних явних ваг для вищого шару. Це працює найкраще, коли пропускають один нелінійний шар, або коли всі проміжні шари є лінійними. Якщо ні, то слід навчатися явної матриці ваг для пропускового з'єднання (слід використовувати HighwayNet).
Пропускання дієво спрощує мережу, використовуючи меншу кількість шарів на початкових етапах тренування[: ком.]. Це прискорює навчання, зменшуючи вплив зникання градієнтів, оскільки існує менше шарів для поширення. Потім мережа поступово відновлює пропущені шари під час навчання простору ознак. Під кінець навчання, коли всі шари розгортаються, вона залишається ближчою до магістралі[: ком.], й відтак навчається швидше. Нейронна мережа без залишкових частин досліджує більше простору ознак. Це робить її вразливішою до збурень, які змушують її зіскакувати з магістралі, й вимагає додаткових тренувальних даних для надолужування.
Біологічний аналог
Мозок має структури, подібні до залишкових мереж, оскільки (нейрони шостого шару кори) отримують вхід із першого шару, пропускаючи проміжні шари. На рисунку це зіставлено з сигналами від апікального дендриту (3), що оминають шари, тоді як базальний дендрит (2) збирає сигнали з попереднього та/або того ж шару. Подібні структури існують і для інших шарів. Скільки шарів у корі головного мозку є подібними до шарів у штучній нейронній мережі, не зрозуміло, як і не зрозуміло, чи всі області кори головного мозку мають однакову структуру, але на великих площах вони виглядають подібними.
Пряме поширення
Для одиночних пропусків шари може бути індексовано або як з до , або як з до . (Шрифт використано для наочності, зазвичай його пишуть як просте l.) Ці дві системи індексування є зручними при описуванні пропусків як таких, що йдуть назад, та вперед. Оскільки сигнал проходить мережею вперед, простіше описувати пропуск як із заданого рівня, але як правило навчання (зворотне поширення) простіше описувати, який шар збудження ви використовуєте повторно, як , де є числом пропуску.
Для заданої вагової матриці для ваг з'єднань з шару до та вагової матриці для ваг з'єднань з шару до прямим поширенням через передавальну функцію буде (відома як HighwayNet)
де
- — збудження (виходи) нейронів у шарі ,
- — передавальна функція шару ,
- — вагова матриця для нейронів між шарами та , а
За відсутності явної матриці (що є відомим як ResNet) пряме поширення крізь передавальну функцію спрощується до
Інший спосіб сформулювати це — підставити одиничну матрицю замість , але це є справедливим лише коли розміри збігаються. Це дещо заплутано називають одиничним блоком (англ. identity block), що означає, що збудження з шару передаються до шару без зважування.
У корі головного мозку такі пропуски вперед здійснюються для декількох шарів. Зазвичай усі пропуски вперед починаються з одного й того ж шару, і послідовно з'єднуються з пізнішими шарами. У загальному випадку це буде виражено як (відоме як DenseNet)
- .
Зворотне поширення
Під час навчання зворотним поширенням для нормального шляху
і для шляхів пропусків (майже ідентично)
- .
В обох випадках
- є темпом навчання ( ,
- є сигналом похибки нейронів на шарі , а
- є збудженням нейронів на шарі .
Якщо шлях пропуску має незмінні ваги (наприклад, одиничну матрицю, як вище), то вони не уточнюються. Якщо їх можливо уточнювати, то це правило є звичайним правилом уточнювання зворотного поширення.
У загальному випадку може бути вагових матриць шляхів пропуску, тож
Оскільки правила навчання є однаковими, вагові матриці можливо об'єднувати та навчати за один крок.
Виноски
- Деякі дослідження показують, що тут є додаткові структури, тож це пояснення є дещо спрощеним.
Примітки
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). (PDF). Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Архів оригіналу (PDF) за 12 липня 2018. Процитовано 23 квітня 2020. (англ.)
- Huang, Gao; Liu, Zhuang; Weinberger, Kilian Q.; van der Maaten, Laurens (2017). (PDF). Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Архів оригіналу (PDF) за 9 серпня 2021. Процитовано 23 квітня 2020. (англ.)
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 грудня 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385 [cs.CV].He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015-12-10). "Deep Residual Learning for Image Recognition". arXiv:1512.03385 [cs.CV]. (англ.)
- Thomson, AM (2010). Neocortical layer 6, a review. Frontiers in Neuroanatomy. 4: 13. doi:10.3389/fnana.2010.00013. PMC 2885865. PMID 20556241.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () (англ.) - Winterer, Jochen; Maier, Nikolaus; Wozny, Christian; Beed, Prateep; Breustedt, Jörg; Evangelista, Roberta; Peng, Yangfan; D’Albis, Tiziano; Kempter, Richard (2017). Excitatory Microcircuits within Superficial Layers of the Medial Entorhinal Cortex. Cell Reports. 19 (6): 1110—1116. doi:10.1016/j.celrep.2017.04.041. PMID 28494861. (англ.)
- Fitzpatrick, David (1 травня 1996). The Functional Organization of Local Circuits in Visual Cortex: Insights from the Study of Tree Shrew Striate Cortex. Cerebral Cortex (англ.). 6 (3): 329—341. doi:10.1093/cercor/6.3.329. ISSN 1047-3211. PMID 8670661. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Za lishkova nejro nna mere zha angl residual neural network ResNet ce shtuchna nejronna merezha ShNM yaka buduyetsya na strukturah vidomih za en kori golovnogo mozku Zalishkovi nejronni merezhi roblyat ce vikoristovuyuchi pro puskovi z ye dnannya angl skip connections abo zrizannya angl shortcuts dlya pereskakuvannya cherez deyaki shari Tipovi modeli ResNet vtilyuyut iz podvijnimi abo potrijnimi propuskannyami shariv z nelinijnostyami ReLU chi en poseredini Dlya navchannya propuskovih vag mozhut vikoristovuvati dodatkovu matricyu vag ci modeli vidomi yak HighwayNet Modeli z kilkoma paralelnimi propuskami nazivayut DenseNet U konteksti zalishkovih nejronnih merezh nezalishkovu merezhu mozhut opisuvati yak prostu merezhu angl plain network Kanonichnij viglyad zalishkovoyi nejronnoyi merezhi Shar ℓ 1 ominayetsya zbudzhennyam z ℓ 2 Vidbudova piramidnogo nejronu Somu ta dendriti poznacheno chervonim kolorom aksonne derevo sinim 1 Soma 2 bazalnij dendrit 3 apikalnij dendrit 4 akson 5 kolateralnij akson Isnuye dvi osnovni prichini dlya dodavannya propuskovih z yednan zadlya unikannya problemi znikannya gradiyentiv ta zadlya pom yakshennya problemi virodzhennya angl degradation problem nasichennya tochnosti angl accuracy saturation za yakoyi dodavannya dodatkovih shariv do nalezhno glibokoyi modeli prizvodit do bilshoyi trenuvalnoyi pohibki Pid chas trenuvannya vagi pristosovuyutsya priglushuvati vishij za techiyeyu shar proyasniti kom ta pidsilyuvati poperedno propushenij shar U najprostishomu vipadku pristosovuyutsya lishe vagi dlya z yednannya susidnogo sharu bez zhodnih yavnih vag dlya vishogo sharu Ce pracyuye najkrashe koli propuskayut odin nelinijnij shar abo koli vsi promizhni shari ye linijnimi Yaksho ni to slid navchatisya yavnoyi matrici vag dlya propuskovogo z yednannya slid vikoristovuvati HighwayNet Propuskannya diyevo sproshuye merezhu vikoristovuyuchi menshu kilkist shariv na pochatkovih etapah trenuvannya proyasniti kom Ce priskoryuye navchannya zmenshuyuchi vpliv znikannya gradiyentiv oskilki isnuye menshe shariv dlya poshirennya Potim merezha postupovo vidnovlyuye propusheni shari pid chas navchannya prostoru oznak Pid kinec navchannya koli vsi shari rozgortayutsya vona zalishayetsya blizhchoyu do magistrali proyasniti kom j vidtak navchayetsya shvidshe Nejronna merezha bez zalishkovih chastin doslidzhuye bilshe prostoru oznak Ce robit yiyi vrazlivishoyu do zburen yaki zmushuyut yiyi ziskakuvati z magistrali j vimagaye dodatkovih trenuvalnih danih dlya nadoluzhuvannya Biologichnij analogMozok maye strukturi podibni do zalishkovih merezh oskilki nejroni shostogo sharu kori otrimuyut vhid iz pershogo sharu propuskayuchi promizhni shari Na risunku ce zistavleno z signalami vid apikalnogo dendritu 3 sho ominayut shari todi yak bazalnij dendrit 2 zbiraye signali z poperednogo ta abo togo zh sharu Podibni strukturi isnuyut i dlya inshih shariv Skilki shariv u kori golovnogo mozku ye podibnimi do shariv u shtuchnij nejronnij merezhi ne zrozumilo yak i ne zrozumilo chi vsi oblasti kori golovnogo mozku mayut odnakovu strukturu ale na velikih ploshah voni viglyadayut podibnimi Pryame poshirennyaDlya odinochnih propuskiv shari mozhe buti indeksovano abo yak z ℓ 2 textstyle ell 2 do ℓ textstyle ell abo yak z ℓ textstyle ell do ℓ 2 textstyle ell 2 Shrift ℓ textstyle ell vikoristano dlya naochnosti zazvichaj jogo pishut yak proste l Ci dvi sistemi indeksuvannya ye zruchnimi pri opisuvanni propuskiv yak takih sho jdut nazad ta vpered Oskilki signal prohodit merezheyu vpered prostishe opisuvati propusk yak ℓ k textstyle ell k iz zadanogo rivnya ale yak pravilo navchannya zvorotne poshirennya prostishe opisuvati yakij shar zbudzhennya vi vikoristovuyete povtorno yak ℓ k textstyle ell k de k 1 textstyle k 1 ye chislom propusku Dlya zadanoyi vagovoyi matrici W ℓ 1 ℓ textstyle W ell 1 ell dlya vag z yednan z sharu ℓ 1 textstyle ell 1 do ℓ textstyle ell ta vagovoyi matrici W ℓ 2 ℓ textstyle W ell 2 ell dlya vag z yednan z sharu ℓ 2 textstyle ell 2 do ℓ textstyle ell pryamim poshirennyam cherez peredavalnu funkciyu bude vidoma yak HighwayNet a ℓ g W ℓ 1 ℓ a ℓ 1 b ℓ W ℓ 2 ℓ a ℓ 2 g Z ℓ W ℓ 2 ℓ a ℓ 2 displaystyle begin aligned a ell amp mathbf g W ell 1 ell cdot a ell 1 b ell W ell 2 ell cdot a ell 2 amp mathbf g Z ell W ell 2 ell cdot a ell 2 end aligned de a ℓ textstyle a ell zbudzhennya vihodi nejroniv u shari ℓ textstyle ell g textstyle mathbf g peredavalna funkciya sharu ℓ textstyle ell W ℓ 1 ℓ textstyle W ell 1 ell vagova matricya dlya nejroniv mizh sharami ℓ 1 textstyle ell 1 ta ℓ textstyle ell a Z ℓ W ℓ 1 ℓ a ℓ 1 b ℓ textstyle Z ell W ell 1 ell cdot a ell 1 b ell Za vidsutnosti yavnoyi matrici W ℓ 2 ℓ textstyle W ell 2 ell sho ye vidomim yak ResNet pryame poshirennya kriz peredavalnu funkciyu sproshuyetsya do a ℓ g Z ℓ a ℓ 2 displaystyle a ell mathbf g Z ell a ell 2 Inshij sposib sformulyuvati ce pidstaviti odinichnu matricyu zamist W ℓ 2 ℓ textstyle W ell 2 ell ale ce ye spravedlivim lishe koli rozmiri zbigayutsya Ce desho zaplutano nazivayut odinichnim blokom angl identity block sho oznachaye sho zbudzhennya z sharu ℓ 2 textstyle ell 2 peredayutsya do sharu ℓ textstyle ell bez zvazhuvannya U kori golovnogo mozku taki propuski vpered zdijsnyuyutsya dlya dekilkoh shariv Zazvichaj usi propuski vpered pochinayutsya z odnogo j togo zh sharu i poslidovno z yednuyutsya z piznishimi sharami U zagalnomu vipadku ce bude virazheno yak vidome yak DenseNet a ℓ g Z ℓ k 2 K W ℓ k ℓ a ℓ k displaystyle a ell mathbf g left Z ell sum k 2 K W ell k ell cdot a ell k right Zvorotne poshirennyaPid chas navchannya zvorotnim poshirennyam dlya normalnogo shlyahu D w ℓ 1 ℓ h E ℓ w ℓ 1 ℓ h a ℓ 1 d ℓ displaystyle Delta w ell 1 ell eta frac partial E ell partial w ell 1 ell eta a ell 1 cdot delta ell i dlya shlyahiv propuskiv majzhe identichno D w ℓ 2 ℓ h E ℓ w ℓ 2 ℓ h a ℓ 2 d ℓ displaystyle Delta w ell 2 ell eta frac partial E ell partial w ell 2 ell eta a ell 2 cdot delta ell V oboh vipadkah h textstyle eta ye tempom navchannya h lt 0 textstyle eta lt 0 d ℓ textstyle delta ell ye signalom pohibki nejroniv na shari ℓ textstyle ell a a i ℓ textstyle a i ell ye zbudzhennyam nejroniv na shari ℓ textstyle ell Yaksho shlyah propusku maye nezminni vagi napriklad odinichnu matricyu yak vishe to voni ne utochnyuyutsya Yaksho yih mozhlivo utochnyuvati to ce pravilo ye zvichajnim pravilom utochnyuvannya zvorotnogo poshirennya U zagalnomu vipadku mozhe buti K textstyle K vagovih matric shlyahiv propusku tozh D w ℓ k ℓ h E ℓ w ℓ k ℓ h a ℓ k d ℓ displaystyle Delta w ell k ell eta frac partial E ell partial w ell k ell eta a ell k cdot delta ell Oskilki pravila navchannya ye odnakovimi vagovi matrici mozhlivo ob yednuvati ta navchati za odin krok VinoskiDeyaki doslidzhennya pokazuyut sho tut ye dodatkovi strukturi tozh ce poyasnennya ye desho sproshenim PrimitkiHe Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 2016 PDF Proc Computer Vision and Pattern Recognition CVPR IEEE Arhiv originalu PDF za 12 lipnya 2018 Procitovano 23 kvitnya 2020 angl Huang Gao Liu Zhuang Weinberger Kilian Q van der Maaten Laurens 2017 PDF Proc Computer Vision and Pattern Recognition CVPR IEEE Arhiv originalu PDF za 9 serpnya 2021 Procitovano 23 kvitnya 2020 angl He Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 10 grudnya 2015 Deep Residual Learning for Image Recognition arXiv 1512 03385 cs CV He Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 2015 12 10 Deep Residual Learning for Image Recognition arXiv 1512 03385 cs CV angl Thomson AM 2010 Neocortical layer 6 a review Frontiers in Neuroanatomy 4 13 doi 10 3389 fnana 2010 00013 PMC 2885865 PMID 20556241 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya angl Winterer Jochen Maier Nikolaus Wozny Christian Beed Prateep Breustedt Jorg Evangelista Roberta Peng Yangfan D Albis Tiziano Kempter Richard 2017 Excitatory Microcircuits within Superficial Layers of the Medial Entorhinal Cortex Cell Reports 19 6 1110 1116 doi 10 1016 j celrep 2017 04 041 PMID 28494861 angl Fitzpatrick David 1 travnya 1996 The Functional Organization of Local Circuits in Visual Cortex Insights from the Study of Tree Shrew Striate Cortex Cerebral Cortex angl 6 3 329 341 doi 10 1093 cercor 6 3 329 ISSN 1047 3211 PMID 8670661 angl