Метод зворотного поширення помилки (англ. backpropagation) — метод навчання багатошарового перцептрону. Це ітеративний градієнтний алгоритм, який використовується з метою мінімізації помилки роботи багатошарового перцептрону та отримання бажаного виходу. Основна ідея цього методу полягає в поширенні сигналів помилки від виходів мережі до її входів, в напрямку, зворотному прямому поширенню сигналів у звичайному режимі роботи. Для можливості застосування методу зворотного поширення помилки функція активації нейронів повинна бути диференційовною.
Функція оцінки роботи мережі
Навчання нейронних мереж можна представити як задачу оптимізації. Оцінити — означає вказати кількісно, добре чи погано мережа вирішує поставлені їй завдання. Для цього будується функція оцінки. Вона, як правило, явно залежить від вихідних сигналів мережі і неявно (через функціонування) — від всіх її параметрів. Найпростіший і найпоширеніший приклад оцінки — сума квадратів відстаней від вихідних сигналів мережі до їх необхідних значень: , де — необхідне значення вихідного сигналу.
Метод найменших квадратів далеко не завжди є найкращим вибором оцінки. Ретельне конструювання функції оцінки дозволяє на порядок підвищити ефективність навчання мережі, а також одержувати додаткову інформацію — «рівень впевненості» мережі у відповіді
Опис алгоритму
Алгоритм зворотного поширення помилки застосовується для багатошарового перцептрону. У мережі є множина входів , множина виходів Outputs і безліч внутрішніх вузлів. Перенумеруємо всі вузли (включаючи входи і виходи) числами від 1 до N (наскрізна нумерація, незалежно від топології шарів). Позначимо через вагу зв'язку, що з'єднує i-й і j-й вузли, а через — вихід i-го вузла. Якщо нам відомий навчальний приклад (правильні відповіді мережі , ), то функція помилки, отримана за методом найменших квадратів, виглядає так:
Як модифікувати ваги? Ми будемо реалізовувати стохастичний градієнтний спуск, тобто будемо підправляти ваги після кожного навчального прикладу і, таким чином, «рухатися» в багатовимірному просторі ваг. Щоб «добратися» до мінімуму помилки, нам потрібно «рухатися» в сторону, протилежну градієнту, тобто, на підставі кожної групи правильних відповідей, додавати до кожної ваги
- ,
де — множник, що задає швидкість «руху».
Похідна розраховується таким чином. Нехай спочатку , тобто вага, яка нас цікавить, входить в нейрон останнього рівня. Спочатку зазначимо, що впливає на вихід мережі лише як частина суми , де сума береться по входах j-го вузла. Тому
Аналогічно, впливає на загальну помилку тільки в рамках виходу j-го вузла (нагадуємо, що це вихід всієї мережі). Тому
де — це функція активації, у даному випадку (стосовно обчислення похідної) являє собою Експоненційну сигмоїду (функцію Фермі) розглянуту вище
Якщо ж j-й вузол — не на останньому рівні, то у нього є виходи; позначимо їх через Children (j). У цьому випадку
- ,
і
- .
А — це аналогічна поправка, але обчислена для вузла наступного рівня (будемо позначати її через — від вона відрізняється відсутністю множника . Оскільки ми навчилися обчислювати поправку для вузлів останнього рівня і виражати поправку для вузла нижчого рівня через поправки більш високого, можна вже створювати алгоритм навчання. Саме через цю особливість обчислення поправок цей алгоритм називається алгоритмом зворотного поширення помилки (англ. backpropagation).
Коротке викладення вищесказаного:
- Для вузла останнього рівня
- Для внутрішнього вузла мережі
- Для всіх вузлів
Отриманий алгоритм представлений нижче. На вхід алгоритму, крім зазначених параметрів, потрібно також подавати в якому-небудь форматі структуру мережі. На практиці дуже гарні результати показують мережі досить простої структури, що складаються з двох рівнів нейронів — прихованого рівня (hidden units) і нейронів-виходів (output units), кожен вхід мережі з'єднаний з усіма прихованими нейронами, а результат роботи кожного прихованого нейрона подається на вхід кожному з нейронів-виходів. У такому випадку досить подавати на вхід кількість нейронів прихованого рівня.
Алгоритм
Алгоритм: BackPropagation
- Ініціалізувати маленькими випадковими значеннями,
- Повторити NUMBER_OF_STEPS раз:
- Для всіх d від 1 до m:
- Подати на вхід сітки і підрахувати виходи кожного вузла.
- Для всіх
- .
- Для кожного рівня l, починаючи з останнього:
- Для кожного вузла j рівня l порахувати
- .
- Для кожного ребра сітки {i, j}
- .
- .
- Видати значення .
Математична інтерпретація навчання нейронної мережі
На кожній ітерації алгоритму зворотного поширення вагові коефіцієнти нейронної мережі модифікуються так, щоб поліпшити рішення одного прикладу. Таким чином, у процесі навчання циклічно вирішуються однокритеріальні задачі оптимізації.
Навчання нейронної мережі характеризується чотирма специфічними обмеженнями, що виділяють навчання нейромереж із загальних задач оптимізації: астрономічне число параметрів, необхідність високого паралелізму при навчанні, багато критеріально вирішуваних завдань, необхідність знайти досить широку область, в якій значення всіх функцій, що мінімізуються близькі до мінімальних. Стосовно решти проблему навчання можна, як правило, сформулювати як завдання мінімізації оцінки. Обережність попередньої фрази («як правило») пов'язана з тим, що насправді нам невідомі і ніколи не будуть відомі всі можливі завдання для нейронних мереж, і, може, десь в невідомості є завдання, які не зводяться до мінімізації оцінки. Мінімізація оцінки — складна проблема: параметрів астрономічно багато (для стандартних прикладів, що реалізуються на РС — від 100 до 1000000), адаптивний рельєф (графік оцінки як функції від підлаштовуваних параметрів) складний, може містити багато локальних мінімумів.
Недоліки алгоритму
Незважаючи на численні успішні застосування алгоритму зворотного поширення помилки, він не є панацеєю. Найбільше неприємностей приносить невизначено довгий процес навчання. У складних завданнях для навчання мережі можуть знадобитися дні або навіть тижні, вона може і взагалі не навчитися. Причиною може бути одна з описаних нижче.
Параліч мережі
У процесі навчання мережі значення ваг можуть в результаті корекції стати дуже великими величинами. Це може призвести до того, що всі або більшість нейронів будуть функціонувати при дуже великих значеннях OUT, в області, де похідна стискаючої функції дуже мала. Так як помилка, що посилається назад у процесі навчання, пропорційна цій похідній, то процес навчання може практично завмерти. У теоретичному відношенні ця проблема погано вивчена. Зазвичай цього уникають зменшенням розміру кроку η, але це збільшує час навчання. Різні евристики використовувалися для запобігання від паралічу або для відновлення після нього, але поки що вони можуть розглядатися лише як експериментальні.
Локальні мінімуми
Зворотне поширення використовує різновид градієнтного спуску, тобто здійснює спуск вниз по поверхні помилки, безперервно підлаштовуючи ваги в напрямку до мінімуму. Поверхня помилки складної мережі сильно порізана і складається з пагорбів, долин, складок і ярів в просторі високої розмірності. Мережа може потрапити в локальний мінімум (неглибоку долину), коли поруч є набагато більш глибоких мінімумів. В точці локального мінімуму всі напрямки ведуть вгору, і мережа нездатна з нього вибратися. Статистичні методи навчання можуть допомогти уникнути цієї пастки, але вони повільні.
Розмір кроку
Уважний розбір доведення збіжності показує, що корекції ваг передбачаються нескінченно малими. Ясно, що це нездійсненно на практиці, тому що веде до безкінечного часу навчання. Розмір кроку повинен братися скінченним. Якщо розмір кроку фіксований і дуже малий, то збіжність надто повільна, якщо ж він фіксований і занадто великий, то може виникнути параліч або постійна нестійкість. Ефективно збільшувати крок до тих пір, поки не припиниться поліпшення оцінки в даному напрямку антиградієнта і зменшувати, якщо такого покращення не відбувається. П. Д. Вассерман описав адаптивний алгоритм вибору кроку, який автоматично коректує розмір кроку в процесі навчання. В книзі А. Н. Горбаня запропонована розгалужена технологія оптимізації навчання. Слід також відмітити можливість перенавчання мережі, що є скоріше результатом помилкового проектування її топології. При дуже великій кількості нейронів втрачається властивість мережі узагальнювати інформацію. Весь набір образів, наданих до навчання, буде вивчений мережею, але будь-які інші образи, навіть дуже схожі, можуть бути класифіковані невірно.
Історія
Цей розділ посилається на . (березень 2020) |
Вперше метод був описаний в 1974 р. А. І. Галушкіним , а також незалежно і одночасно Полом Дж. Вербосом . Далі істотно розвинений в 1986 р. [en], Джефрі Е. Хінтоном і [en] і незалежно й одночасно С. І. Барцом та В. А. Охоніним .
Література
- Philip D. Wasserman. Neural Computing: Theory and Practice. Coriolis Group. June 1, 1989. 230 pages. ISBN-13 : 978-0442207434. ISBN-10 : 0442207433
- Simon S. Haykin. Neural Networks: A Comprehensive Foundation.Prentice Hall, 1999 - 842 pages. ISBN-13: 978-0132733502 ISBN-10: 0132733501
Зноски
- Миркес Е. М., Нейрокомпьютер. Проект стандарта [ 15 червня 2009 у Wayback Machine.]. — Новосибирск: Наука, Сибирская издательская фирма РАН, 1999. — 337 с. Інші копії онлайн: [1] [ 30 червня 2009 у Wayback Machine.], [2] [ 3 липня 2009 у Wayback Machine.].
- Rumelhart, David E.; Williams, Ronald J. (1986). Learning Internal Representations by Error Propagation. In: Parallel Distributed Processing (англ.). Cambridge, MA: MIT Press. 1: 318—362.
- Wasserman P. D. Experiments in translating Chinese characters using backpropagation. Proceedings of the Thirty-Third IEEE Computer Society International Conference.. — Washington: D. C.: Computer Society Press of the IEEE, 1988.
- Горбань А. Н. Обучение нейронных сетей. — Москва: СП ПараГраф, 1990.
- Галушкин А. И. Синтез многослойных систем распознавания образов. — М.: «Энергия», 1974.
- Werbos P. J., Beyond regression: New tools for prediction and analysis in the behavioral sciences. Ph.D. thesis, Harvard University, Cambridge, MA, 1974.
- Барцев С. И., Охонин В. А. Адаптивные сети обработки информации. Красноярск : Ин-т физики СО АН СССР, 1986. Препринт N 59Б. — 20 с.
Див. також
Посилання
- Olah, Christopher. Calculus on Computational Graphs: Backpropagation -- colah's blog. Процитовано 5 лютого 2019.
- С++ код простої нейромережі, що навчається за алгоритмом зворотного поширення помилки
- Терехов С. А., Лекции по теории и приложениям искусственных нейронных сетей.
- Миркес Е. М., Красноярск: ИПЦ КГТУ, 2002, 347 с. .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Metod zvorotnogo poshirennya pomilki angl backpropagation metod navchannya bagatosharovogo perceptronu Ce iterativnij gradiyentnij algoritm yakij vikoristovuyetsya z metoyu minimizaciyi pomilki roboti bagatosharovogo perceptronu ta otrimannya bazhanogo vihodu Osnovna ideya cogo metodu polyagaye v poshirenni signaliv pomilki vid vihodiv merezhi do yiyi vhodiv v napryamku zvorotnomu pryamomu poshirennyu signaliv u zvichajnomu rezhimi roboti Dlya mozhlivosti zastosuvannya metodu zvorotnogo poshirennya pomilki funkciya aktivaciyi nejroniv povinna buti diferencijovnoyu Funkciya ocinki roboti merezhiNavchannya nejronnih merezh mozhna predstaviti yak zadachu optimizaciyi Ociniti oznachaye vkazati kilkisno dobre chi pogano merezha virishuye postavleni yij zavdannya Dlya cogo buduyetsya funkciya ocinki Vona yak pravilo yavno zalezhit vid vihidnih signaliv merezhi i neyavno cherez funkcionuvannya vid vsih yiyi parametriv Najprostishij i najposhirenishij priklad ocinki suma kvadrativ vidstanej vid vihidnih signaliv merezhi do yih neobhidnih znachen H 12 t vout Z t Z t 2 displaystyle H frac 1 2 sum tau in v out Z tau Z tau 2 de Z t displaystyle Z tau neobhidne znachennya vihidnogo signalu Metod najmenshih kvadrativ daleko ne zavzhdi ye najkrashim viborom ocinki Retelne konstruyuvannya funkciyi ocinki dozvolyaye na poryadok pidvishiti efektivnist navchannya merezhi a takozh oderzhuvati dodatkovu informaciyu riven vpevnenosti merezhi u vidpovidiOpis algoritmuArhitektura bagatosharovogo perceptronu Algoritm zvorotnogo poshirennya pomilki zastosovuyetsya dlya bagatosharovogo perceptronu U merezhi ye mnozhina vhodiv x1 xn displaystyle x 1 x n mnozhina vihodiv Outputs i bezlich vnutrishnih vuzliv Perenumeruyemo vsi vuzli vklyuchayuchi vhodi i vihodi chislami vid 1 do N naskrizna numeraciya nezalezhno vid topologiyi shariv Poznachimo cherez wi j displaystyle w i j vagu zv yazku sho z yednuye i j i j j vuzli a cherez oi displaystyle o i vihid i go vuzla Yaksho nam vidomij navchalnij priklad pravilni vidpovidi merezhi tk displaystyle t k k Outputs displaystyle k in Outputs to funkciya pomilki otrimana za metodom najmenshih kvadrativ viglyadaye tak E wi j 12 k Outputs tk ok 2 displaystyle E w i j cfrac 1 2 sum k in Outputs t k o k 2 Yak modifikuvati vagi Mi budemo realizovuvati stohastichnij gradiyentnij spusk tobto budemo pidpravlyati vagi pislya kozhnogo navchalnogo prikladu i takim chinom ruhatisya v bagatovimirnomu prostori vag Shob dobratisya do minimumu pomilki nam potribno ruhatisya v storonu protilezhnu gradiyentu tobto na pidstavi kozhnoyi grupi pravilnih vidpovidej dodavati do kozhnoyi vagi wi j displaystyle w i j Dwi j h E wi j displaystyle Delta w i j eta frac partial E partial w i j de 0 lt h lt 1 displaystyle 0 lt eta lt 1 mnozhnik sho zadaye shvidkist ruhu Pohidna rozrahovuyetsya takim chinom Nehaj spochatku j Outputs displaystyle j in Outputs tobto vaga yaka nas cikavit vhodit v nejron ostannogo rivnya Spochatku zaznachimo sho wi j displaystyle w i j vplivaye na vihid merezhi lishe yak chastina sumi Sj iwi jxi displaystyle S j sum i w i j x i de suma beretsya po vhodah j go vuzla Tomu E wi j E Sj Sj wi j xi E Sj displaystyle cfrac partial E partial w i j cfrac partial E partial S j cfrac partial S j partial w i j x i cfrac partial E partial S j Analogichno Sj displaystyle S j vplivaye na zagalnu pomilku tilki v ramkah vihodu j go vuzla oj displaystyle o j nagaduyemo sho ce vihid vsiyeyi merezhi Tomu E Sj E oj oj Sj oj12 k Outputs tk ok 2 s Sj Sj 12 oj tj oj 2 oj 1 oj oj 1 oj tj oj displaystyle cfrac partial E partial S j cfrac partial E partial o j cfrac partial o j partial S j left cfrac partial partial o j cfrac 1 2 sum k in Outputs t k o k 2 right left cfrac partial sigma S j partial S j right left cfrac 1 2 cfrac partial partial o j t j o j 2 right o j 1 o j o j 1 o j t j o j de s displaystyle sigma ce funkciya aktivaciyi u danomu vipadku stosovno obchislennya pohidnoyi yavlyaye soboyu Eksponencijnu sigmoyidu funkciyu Fermi rozglyanutu vishe Yaksho zh j j vuzol ne na ostannomu rivni to u nogo ye vihodi poznachimo yih cherez Children j U comu vipadku E Sj k Children j E Sk Sk Sj displaystyle cfrac partial E partial S j sum k in Children j cfrac partial E partial S k cfrac partial S k partial S j i Sk Sj Sk oj oj Sj wi j oj Sj wi joj 1 oj displaystyle cfrac partial S k partial S j cfrac partial S k partial o j cfrac partial o j partial S j w i j cfrac partial o j partial S j w i j o j 1 o j A E Sk displaystyle cfrac partial E partial S k ce analogichna popravka ale obchislena dlya vuzla nastupnogo rivnya budemo poznachati yiyi cherez dk displaystyle delta k vid Dk displaystyle Delta k vona vidriznyayetsya vidsutnistyu mnozhnika hxi j displaystyle eta x i j Oskilki mi navchilisya obchislyuvati popravku dlya vuzliv ostannogo rivnya i virazhati popravku dlya vuzla nizhchogo rivnya cherez popravki bilsh visokogo mozhna vzhe stvoryuvati algoritm navchannya Same cherez cyu osoblivist obchislennya popravok cej algoritm nazivayetsya algoritmom zvorotnogo poshirennya pomilki angl backpropagation Korotke vikladennya visheskazanogo Dlya vuzla ostannogo rivnya dj oj 1 oj tj oj displaystyle delta j o j 1 o j t j o j Dlya vnutrishnogo vuzla merezhi dj oj 1 oj k Outputs j dkwj k displaystyle delta j o j 1 o j sum k in Outputs j delta k w j k Dlya vsih vuzliv Dwi j hdjxi displaystyle Delta w i j eta delta j x i Otrimanij algoritm predstavlenij nizhche Na vhid algoritmu krim zaznachenih parametriv potribno takozh podavati v yakomu nebud formati strukturu merezhi Na praktici duzhe garni rezultati pokazuyut merezhi dosit prostoyi strukturi sho skladayutsya z dvoh rivniv nejroniv prihovanogo rivnya hidden units i nejroniv vihodiv output units kozhen vhid merezhi z yednanij z usima prihovanimi nejronami a rezultat roboti kozhnogo prihovanogo nejrona podayetsya na vhid kozhnomu z nejroniv vihodiv U takomu vipadku dosit podavati na vhid kilkist nejroniv prihovanogo rivnya AlgoritmAlgoritm BackPropagation h a xid td i 1 d 1n m NUMBER OF STEPS displaystyle eta alpha x i d t d i 1 d 1 n m NUMBER OF STEPS Inicializuvati wij i j displaystyle w ij i j malenkimi vipadkovimi znachennyami Dwij i j 0 displaystyle Delta w ij i j 0 Povtoriti NUMBER OF STEPS raz Dlya vsih d vid 1 do m Podati xid displaystyle x i d na vhid sitki i pidrahuvati vihodi oi displaystyle o i kozhnogo vuzla Dlya vsih k Outputs displaystyle k in Outputs dk ok 1 ok tk ok displaystyle delta k o k 1 o k t k o k Dlya kozhnogo rivnya l pochinayuchi z ostannogo Dlya kozhnogo vuzla j rivnya l porahuvati dj oj 1 oj k Children j dkwj k displaystyle delta j o j 1 o j sum k in Children j delta k w j k Dlya kozhnogo rebra sitki i j Dwi j aDwi j 1 a hdjoi displaystyle Delta w i j alpha Delta w i j 1 alpha eta delta j o i wi j wi j Dwi j displaystyle w i j w i j Delta w i j Vidati znachennya wij displaystyle w ij Matematichna interpretaciya navchannya nejronnoyi merezhiNa kozhnij iteraciyi algoritmu zvorotnogo poshirennya vagovi koeficiyenti nejronnoyi merezhi modifikuyutsya tak shob polipshiti rishennya odnogo prikladu Takim chinom u procesi navchannya ciklichno virishuyutsya odnokriterialni zadachi optimizaciyi Navchannya nejronnoyi merezhi harakterizuyetsya chotirma specifichnimi obmezhennyami sho vidilyayut navchannya nejromerezh iz zagalnih zadach optimizaciyi astronomichne chislo parametriv neobhidnist visokogo paralelizmu pri navchanni bagato kriterialno virishuvanih zavdan neobhidnist znajti dosit shiroku oblast v yakij znachennya vsih funkcij sho minimizuyutsya blizki do minimalnih Stosovno reshti problemu navchannya mozhna yak pravilo sformulyuvati yak zavdannya minimizaciyi ocinki Oberezhnist poperednoyi frazi yak pravilo pov yazana z tim sho naspravdi nam nevidomi i nikoli ne budut vidomi vsi mozhlivi zavdannya dlya nejronnih merezh i mozhe des v nevidomosti ye zavdannya yaki ne zvodyatsya do minimizaciyi ocinki Minimizaciya ocinki skladna problema parametriv astronomichno bagato dlya standartnih prikladiv sho realizuyutsya na RS vid 100 do 1000000 adaptivnij relyef grafik ocinki yak funkciyi vid pidlashtovuvanih parametriv skladnij mozhe mistiti bagato lokalnih minimumiv Nedoliki algoritmuNezvazhayuchi na chislenni uspishni zastosuvannya algoritmu zvorotnogo poshirennya pomilki vin ne ye panaceyeyu Najbilshe nepriyemnostej prinosit neviznacheno dovgij proces navchannya U skladnih zavdannyah dlya navchannya merezhi mozhut znadobitisya dni abo navit tizhni vona mozhe i vzagali ne navchitisya Prichinoyu mozhe buti odna z opisanih nizhche Paralich merezhi U procesi navchannya merezhi znachennya vag mozhut v rezultati korekciyi stati duzhe velikimi velichinami Ce mozhe prizvesti do togo sho vsi abo bilshist nejroniv budut funkcionuvati pri duzhe velikih znachennyah OUT v oblasti de pohidna stiskayuchoyi funkciyi duzhe mala Tak yak pomilka sho posilayetsya nazad u procesi navchannya proporcijna cij pohidnij to proces navchannya mozhe praktichno zavmerti U teoretichnomu vidnoshenni cya problema pogano vivchena Zazvichaj cogo unikayut zmenshennyam rozmiru kroku h ale ce zbilshuye chas navchannya Rizni evristiki vikoristovuvalisya dlya zapobigannya vid paralichu abo dlya vidnovlennya pislya nogo ale poki sho voni mozhut rozglyadatisya lishe yak eksperimentalni Lokalni minimumi Zvorotne poshirennya vikoristovuye riznovid gradiyentnogo spusku tobto zdijsnyuye spusk vniz po poverhni pomilki bezperervno pidlashtovuyuchi vagi v napryamku do minimumu Poverhnya pomilki skladnoyi merezhi silno porizana i skladayetsya z pagorbiv dolin skladok i yariv v prostori visokoyi rozmirnosti Merezha mozhe potrapiti v lokalnij minimum negliboku dolinu koli poruch ye nabagato bilsh glibokih minimumiv V tochci lokalnogo minimumu vsi napryamki vedut vgoru i merezha nezdatna z nogo vibratisya Statistichni metodi navchannya mozhut dopomogti uniknuti ciyeyi pastki ale voni povilni Rozmir kroku Uvazhnij rozbir dovedennya zbizhnosti pokazuye sho korekciyi vag peredbachayutsya neskinchenno malimi Yasno sho ce nezdijsnenno na praktici tomu sho vede do bezkinechnogo chasu navchannya Rozmir kroku povinen bratisya skinchennim Yaksho rozmir kroku fiksovanij i duzhe malij to zbizhnist nadto povilna yaksho zh vin fiksovanij i zanadto velikij to mozhe viniknuti paralich abo postijna nestijkist Efektivno zbilshuvati krok do tih pir poki ne pripinitsya polipshennya ocinki v danomu napryamku antigradiyenta i zmenshuvati yaksho takogo pokrashennya ne vidbuvayetsya P D Vasserman opisav adaptivnij algoritm viboru kroku yakij avtomatichno korektuye rozmir kroku v procesi navchannya V knizi A N Gorbanya zaproponovana rozgaluzhena tehnologiya optimizaciyi navchannya Slid takozh vidmititi mozhlivist perenavchannya merezhi sho ye skorishe rezultatom pomilkovogo proektuvannya yiyi topologiyi Pri duzhe velikij kilkosti nejroniv vtrachayetsya vlastivist merezhi uzagalnyuvati informaciyu Ves nabir obraziv nadanih do navchannya bude vivchenij merezheyu ale bud yaki inshi obrazi navit duzhe shozhi mozhut buti klasifikovani nevirno IstoriyaCej rozdil posilayetsya na pervinni dzherela Bud laska udoskonalte jogo dodavshi posilannya na nezalezhni vtorinni chi tretinni dzherela berezen 2020 Vpershe metod buv opisanij v 1974 r A I Galushkinim a takozh nezalezhno i odnochasno Polom Dzh Verbosom Dali istotno rozvinenij v 1986 r en Dzhefri E Hintonom i en i nezalezhno j odnochasno S I Barcom ta V A Ohoninim LiteraturaPhilip D Wasserman Neural Computing Theory and Practice Coriolis Group June 1 1989 230 pages ISBN 13 978 0442207434 ISBN 10 0442207433 Simon S Haykin Neural Networks A Comprehensive Foundation Prentice Hall 1999 842 pages ISBN 13 978 0132733502 ISBN 10 0132733501ZnoskiMirkes E M Nejrokompyuter Proekt standarta 15 chervnya 2009 u Wayback Machine Novosibirsk Nauka Sibirskaya izdatelskaya firma RAN 1999 337 s ISBN 5 02 031409 9 Inshi kopiyi onlajn 1 30 chervnya 2009 u Wayback Machine 2 3 lipnya 2009 u Wayback Machine Rumelhart David E Williams Ronald J 1986 Learning Internal Representations by Error Propagation In Parallel Distributed Processing angl Cambridge MA MIT Press 1 318 362 Wasserman P D Experiments in translating Chinese characters using backpropagation Proceedings of the Thirty Third IEEE Computer Society International Conference Washington D C Computer Society Press of the IEEE 1988 Gorban A N Obuchenie nejronnyh setej Moskva SP ParaGraf 1990 Galushkin A I Sintez mnogoslojnyh sistem raspoznavaniya obrazov M Energiya 1974 Werbos P J Beyond regression New tools for prediction and analysis in the behavioral sciences Ph D thesis Harvard University Cambridge MA 1974 Barcev S I Ohonin V A Adaptivnye seti obrabotki informacii Krasnoyarsk In t fiziki SO AN SSSR 1986 Preprint N 59B 20 s Div takozhMetod zvorotnogo poshirennya pohibki v chasiPosilannyaOlah Christopher Calculus on Computational Graphs Backpropagation colah s blog Procitovano 5 lyutogo 2019 S kod prostoyi nejromerezhi sho navchayetsya za algoritmom zvorotnogo poshirennya pomilki Terehov S A Lekcii po teorii i prilozheniyam iskusstvennyh nejronnyh setej Mirkes E M Krasnoyarsk IPC KGTU 2002 347 s ISBN 5 7636 0477 6