Штучна нейронна мережа (ШНМ, англ. artificial neural network, ANN) поєднує біологічні принципи з передовою статистикою для розв'язування задач у таких областях як розпізнавання образів та ігровий процес. ШНМ приймають базову модель нейронних аналогів, з'єднаних один з одним різними способами.
Структура
Нейрон
Нейрон з міткою , що отримує вхід від нейронів-попередників, містить наступні складові:
- збудження (англ. activation) , стан нейрона, що залежить від дискретного часового параметра,
- необов'язковий поріг (англ. threshold) , що лишається незмінним, якщо не змінюється навчанням,
- функцію збудження (англ. activation function) , яка обчислює нове збудження в заданий час виходячи з , та чистого входу , породжуючи відношення
- та функцію виходу (англ. output function) , яка обчислює вихід зі збудження
Функція виходу часто просто тотожна функція.
Нейрон входу (англ. input neuron) не має попередників, і слугує інтерфейсом входу для всієї мережі. Так само, нейрон виходу (англ. output neuron) не має наступників, й отже, слугує інтерфейсом виходу всієї мережі.
Функція поширення
Функція поширення (англ. propagation function) обчислює вхід до нейрона з виходів , і зазвичай має вигляд
Зміщення
Може бути додано член зміщення (англ. bias), що змінює її вигляд на такий:
- де — це зміщення.
Нейронні мережі як функції
Нейромережні моделі можливо розглядати як такі, що визначають функцію, яка бере вхід (спостереження) та видає вихід (рішення) або розподіл над або над та . Іноді моделі тісно пов'язані з певним правилом навчання. Загальне використання фрази «модель ШНМ» насправді є визначенням класу таких функцій (де членів класу отримують варіюванням параметрів, ваг з'єднань або особливостей архітектури, таких як кількість нейронів, кількість шарів або їхня зв'язність).
З математичної точки зору мережну функцію нейрона визначають як композицію інших функцій , які можливо розкласти далі на інші функції. Це можливо зручно подавати у вигляді мережної структури зі стрілками, що зображують залежності між функціями. Широко вживаний тип композиції — нелінійна зважена сума, де , де (що зазвичай називають передавальною функцією, також англ. activation function) — це деяка наперед визначена функція, наприклад, гіперболічний тангенс, сигмоїдна функція, нормована експоненційна функція (англ. softmax function) або випрямляльна функція (англ. rectifier function). Важливою характеристикою передавальної функції є те, що вона забезпечує плавний перехід за зміни значень входу, тобто невелика зміна входу призводить до невеликої зміни виходу. Далі йдеться про набір функцій як вектор .
Цей рисунок зображує такий розклад , із залежностями між змінними, показаними стрілками. Їх можливо тлумачити двояко.
Перший погляд — функційний: вхід перетворюється на тривимірний вектор , який відтак перетворюється на 2-вимірний вектор , який остаточно перетворюється на . Цей погляд найчастіше зустрічається в контексті оптимізації.
Другий погляд — імовірнісний: випадкова змінна залежить від випадкової змінної , що залежить від , яка залежить від випадкової величини . Цей погляд найчастіше зустрічається в контексті графових моделей.
Ці два погляди здебільшого рівнозначні. В кожному разі для цієї конкретної архітектури складові окремих шарів незалежні одна від одної (наприклад, складові не залежать одна від одної за заданого їхнього входу ). Це, природно, уможливлює якусь міру паралелізму у втіленні.
Такі мережі як попередня зазвичай називають мережами прямого поширення, оскільки їхній граф є орієнтованим ациклічним графом. Мережі з циклами зазвичай називають рекурентними. Такі мережі зазвичай зображують у спосіб, показаний у верхній частині малюнка, де показано як залежну від самої себе. Проте не показано часову залежність, що мається на увазі.
Зворотне поширення
Алгоритми тренування зворотним поширенням поділяють на три категорії:
- найшвидшого спуску (зі змінним темпом навчання та імпульсом, [en]);
- квазіньютонові (Бройдена — Флетчера — Гольдфарба — Шанно, однокрокової хорди);
- Левенберга — Марквардта та спряженого градієнта (уточнення Флетчера — Рівза, уточнення Поляка — Ріб'єра, перезапуск Павелла — Біла, масштабований спряжений градієнт).
Алгоритм
Нехай — мережа з з'єднань, входів та виходів.
Нижче позначують вектори в , — вектори в , а — вектори в . Їх називають входами (англ. inputs), виходами (англ. outputs) та вагами (англ. weights) відповідно.
Мережа відповідає функції , яка, за заданих ваг , відображує вхід до виходу .
У керованім навчанні послідовність тренувальних прикладів створює послідовність ваг , починаючи з деяких початкових ваг , зазвичай обираних випадково.
Ці ваги обчислюють по черзі: спочатку обчислюють , використовуючи лише для . Тоді виходом цього алгоритму стає , даючи нову функцію . Обчислення однакове на кожному кроці, тож описано лише випадок .
обчислюють з , розглядаючи змінну ваг та застосовуючи градієнтний спуск до функції для пошуку локального мінімуму, починаючи з .
Це робить мінімізувальною вагою, знайденою градієнтним спуском.
Псевдокод навчання
Щоби втілити наведений вище алгоритм, необхідні явні формули для градієнта функції , де функція .
Поширення
Поширення охоплює наступні етапи:
- Пряме поширення крізь мережу для породження значень виходу
- Розрахунок витрат (англ. cost, члену похибки, англ. error term)
- Поширення збуджень виходу крізь мережу у зворотному напрямку з використанням тренувального цільового образу для породження дельт (різниць між цільовими та фактичними значеннями виходу) всіх нейронів виходу та прихованих нейронів.
Уточнювання ваг
Для кожної ваги:
- Помножити дельту виходу ваги на збудження входу, щоби знайти градієнт ваги.
- Відняти відношення (відсоток) градієнта ваги від неї.
Темп навчання (англ. learning rate) — це відношення (відсоток), яке впливає на швидкість і якість навчання. Що більше це відношення, то швидше тренується нейрон, але що це відношення менше, то точніше навчання. Знак градієнта ваги вказує, чи змінюється похибка прямо, чи обернено до ваги. Тож вагу необхідно оновлювати в протилежному напрямку, «спускаючись» з градієнта.
Навчання повторюють (на нових пакетах), доки мережа не запрацює адекватно.
Псевдокод
Псевдокод для алгоритму стохастичного градієнтного спуску для навчання тришарової мережі (один прихований шар):
встановити початкові значення ваг мережі (часто малі випадкові значення) робити для кожного тренувального прикладу під назвою пр. зробити передбачення = вихід нейронної мережі(мережа, пр.) // прямий прохід факт = результат вчителя(пр.) обчислити похибку (передбачення - факт) на вузлах виходу обчислити для всіх ваг з прихованого шару до шару виходу // зворотний прохід обчислити для всіх ваг з шару входу до прихованого шару // продовження зворотного проходу уточнити ваги мережі // шар входу оцінкою похибки не змінюється поки рівень похибки не стане прийнятно низьким повернути мережу
Рядки, позначені як «зворотний прохід», може бути втілено за допомогою алгоритму зворотного поширення, який обчислює градієнт похибки мережі щодо змінюваних ваг мережі.
Примітки
- Zell, Andreas (2003). chapter 5.2. Simulation neuronaler Netze [Simulation of Neural Networks] (German) (вид. 1st). Addison-Wesley. ISBN . OCLC 249017987. (нім.)
- DAWSON, CHRISTIAN W (1998). An artificial neural network approach to rainfall-runoff modelling. Hydrological Sciences Journal. 43 (1): 47—66. doi:10.1080/02626669809492102. (англ.)
- . www.cse.unsw.edu.au. Архів оригіналу за 26 серпня 2018. Процитовано 18 серпня 2019. (англ.)
- M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic & S. Rajan (July 2010). Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation. 4th Int. Workshop Soft Computing Applications. Arad, Romania: IEEE. (англ.)
- Werbos, Paul J. (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Dokladnishe Shtuchna nejronna merezha Shtuchna nejronna merezha ShNM angl artificial neural network ANN poyednuye biologichni principi z peredovoyu statistikoyu dlya rozv yazuvannya zadach u takih oblastyah yak rozpiznavannya obraziv ta igrovij proces ShNM prijmayut bazovu model nejronnih analogiv z yednanih odin z odnim riznimi sposobami StrukturaNejron Nejron z mitkoyu j displaystyle j sho otrimuye vhid pj t displaystyle p j t vid nejroniv poperednikiv mistit nastupni skladovi zbudzhennya angl activation aj t displaystyle a j t stan nejrona sho zalezhit vid diskretnogo chasovogo parametra neobov yazkovij porig angl threshold 8j displaystyle theta j sho lishayetsya nezminnim yaksho ne zminyuyetsya navchannyam funkciyu zbudzhennya angl activation function f displaystyle f yaka obchislyuye nove zbudzhennya v zadanij chas t 1 displaystyle t 1 vihodyachi z aj t displaystyle a j t 8j displaystyle theta j ta chistogo vhodu pj t displaystyle p j t porodzhuyuchi vidnoshennyaaj t 1 f aj t pj t 8j displaystyle a j t 1 f a j t p j t theta j dd ta funkciyu vihodu angl output function fout displaystyle f text out yaka obchislyuye vihid zi zbudzhennyaoj t fout aj t displaystyle o j t f text out a j t dd Funkciya vihodu chasto prosto totozhna funkciya Nejron vhodu angl input neuron ne maye poperednikiv i sluguye interfejsom vhodu dlya vsiyeyi merezhi Tak samo nejron vihodu angl output neuron ne maye nastupnikiv j otzhe sluguye interfejsom vihodu vsiyeyi merezhi Funkciya poshirennya Funkciya poshirennya angl propagation function obchislyuye vhid pj t displaystyle p j t do nejrona j displaystyle j z vihodiv oi t displaystyle o i t i zazvichaj maye viglyad pj t ioi t wij displaystyle p j t sum i o i t w ij Zmishennya Mozhe buti dodano chlen zmishennya angl bias sho zminyuye yiyi viglyad na takij pj t ioi t wij w0j displaystyle p j t sum i o i t w ij w 0j de w0j displaystyle w 0j ce zmishennya Nejronni merezhi yak funkciyiDiv takozh Grafovi modeli Nejromerezhni modeli mozhlivo rozglyadati yak taki sho viznachayut funkciyu yaka bere vhid sposterezhennya ta vidaye vihid rishennya f X Y displaystyle textstyle f X rightarrow Y abo rozpodil nad X displaystyle textstyle X abo nad X displaystyle textstyle X ta Y displaystyle textstyle Y Inodi modeli tisno pov yazani z pevnim pravilom navchannya Zagalne vikoristannya frazi model ShNM naspravdi ye viznachennyam klasu takih funkcij de chleniv klasu otrimuyut variyuvannyam parametriv vag z yednan abo osoblivostej arhitekturi takih yak kilkist nejroniv kilkist shariv abo yihnya zv yaznist Z matematichnoyi tochki zoru merezhnu funkciyu nejrona f x displaystyle textstyle f x viznachayut yak kompoziciyu inshih funkcij gi x displaystyle textstyle g i x yaki mozhlivo rozklasti dali na inshi funkciyi Ce mozhlivo zruchno podavati u viglyadi merezhnoyi strukturi zi strilkami sho zobrazhuyut zalezhnosti mizh funkciyami Shiroko vzhivanij tip kompoziciyi nelinijna zvazhena suma de f x K iwigi x displaystyle textstyle f x K left sum i w i g i x right de K displaystyle textstyle K sho zazvichaj nazivayut peredavalnoyu funkciyeyu takozh angl activation function ce deyaka napered viznachena funkciya napriklad giperbolichnij tangens sigmoyidna funkciya normovana eksponencijna funkciya angl softmax function abo vipryamlyalna funkciya angl rectifier function Vazhlivoyu harakteristikoyu peredavalnoyi funkciyi ye te sho vona zabezpechuye plavnij perehid za zmini znachen vhodu tobto nevelika zmina vhodu prizvodit do nevelikoyi zmini vihodu Dali jdetsya pro nabir funkcij gi displaystyle textstyle g i yak vektor g g1 g2 gn displaystyle textstyle g g 1 g 2 ldots g n Graf zalezhnostej ShNM Cej risunok zobrazhuye takij rozklad f displaystyle textstyle f iz zalezhnostyami mizh zminnimi pokazanimi strilkami Yih mozhlivo tlumachiti dvoyako Pershij poglyad funkcijnij vhid x displaystyle textstyle x peretvoryuyetsya na trivimirnij vektor h displaystyle textstyle h yakij vidtak peretvoryuyetsya na 2 vimirnij vektor g displaystyle textstyle g yakij ostatochno peretvoryuyetsya na f displaystyle textstyle f Cej poglyad najchastishe zustrichayetsya v konteksti optimizaciyi Drugij poglyad imovirnisnij vipadkova zminna F f G displaystyle textstyle F f G zalezhit vid vipadkovoyi zminnoyi G g H displaystyle textstyle G g H sho zalezhit vid H h X displaystyle textstyle H h X yaka zalezhit vid vipadkovoyi velichini X displaystyle textstyle X Cej poglyad najchastishe zustrichayetsya v konteksti grafovih modelej Ci dva poglyadi zdebilshogo rivnoznachni V kozhnomu razi dlya ciyeyi konkretnoyi arhitekturi skladovi okremih shariv nezalezhni odna vid odnoyi napriklad skladovi g displaystyle textstyle g ne zalezhat odna vid odnoyi za zadanogo yihnogo vhodu h displaystyle textstyle h Ce prirodno umozhlivlyuye yakus miru paralelizmu u vtilenni Dva okremi zobrazhennya grafu zalezhnostej rekurentnoyi ShNM Taki merezhi yak poperednya zazvichaj nazivayut merezhami pryamogo poshirennya oskilki yihnij graf ye oriyentovanim aciklichnim grafom Merezhi z ciklami zazvichaj nazivayut rekurentnimi Taki merezhi zazvichaj zobrazhuyut u sposib pokazanij u verhnij chastini malyunka de f displaystyle textstyle f pokazano yak zalezhnu vid samoyi sebe Prote ne pokazano chasovu zalezhnist sho mayetsya na uvazi Zvorotne poshirennyaAlgoritmi trenuvannya zvorotnim poshirennyam podilyayut na tri kategoriyi najshvidshogo spusku zi zminnim tempom navchannya ta impulsom en kvazinyutonovi Brojdena Fletchera Goldfarba Shanno odnokrokovoyi hordi Levenberga Markvardta ta spryazhenogo gradiyenta utochnennya Fletchera Rivza utochnennya Polyaka Rib yera perezapusk Pavella Bila masshtabovanij spryazhenij gradiyent Algoritm Nehaj N displaystyle N merezha z e displaystyle e z yednan m displaystyle m vhodiv ta n displaystyle n vihodiv Nizhche x1 x2 displaystyle x 1 x 2 dots poznachuyut vektori v Rm displaystyle mathbb R m y1 y2 displaystyle y 1 y 2 dots vektori v Rn displaystyle mathbb R n a w0 w1 w2 displaystyle w 0 w 1 w 2 ldots vektori v Re displaystyle mathbb R e Yih nazivayut vhodami angl inputs vihodami angl outputs ta vagami angl weights vidpovidno Merezha vidpovidaye funkciyi y fN w x displaystyle y f N w x yaka za zadanih vag w displaystyle w vidobrazhuye vhid x displaystyle x do vihodu y displaystyle y U kerovanim navchanni poslidovnist trenuvalnih prikladiv x1 y1 xp yp displaystyle x 1 y 1 dots x p y p stvoryuye poslidovnist vag w0 w1 wp displaystyle w 0 w 1 dots w p pochinayuchi z deyakih pochatkovih vag w0 displaystyle w 0 zazvichaj obiranih vipadkovo Ci vagi obchislyuyut po cherzi spochatku obchislyuyut wi displaystyle w i vikoristovuyuchi lishe xi yi wi 1 displaystyle x i y i w i 1 dlya i 1 p displaystyle i 1 dots p Todi vihodom cogo algoritmu staye wp displaystyle w p dayuchi novu funkciyu x fN wp x displaystyle x mapsto f N w p x Obchislennya odnakove na kozhnomu kroci tozh opisano lishe vipadok i 1 displaystyle i 1 w1 displaystyle w 1 obchislyuyut z x1 y1 w0 displaystyle x 1 y 1 w 0 rozglyadayuchi zminnu vag w displaystyle w ta zastosovuyuchi gradiyentnij spusk do funkciyi w E fN w x1 y1 displaystyle w mapsto E f N w x 1 y 1 dlya poshuku lokalnogo minimumu pochinayuchi z w w0 displaystyle w w 0 Ce robit w1 displaystyle w 1 minimizuvalnoyu vagoyu znajdenoyu gradiyentnim spuskom Psevdokod navchannyaShobi vtiliti navedenij vishe algoritm neobhidni yavni formuli dlya gradiyenta funkciyi w E fN w x y displaystyle w mapsto E f N w x y de funkciya E y y y y 2 displaystyle E y y y y 2 Poshirennya Poshirennya ohoplyuye nastupni etapi Pryame poshirennya kriz merezhu dlya porodzhennya znachen vihodu Rozrahunok vitrat angl cost chlenu pohibki angl error term Poshirennya zbudzhen vihodu kriz merezhu u zvorotnomu napryamku z vikoristannyam trenuvalnogo cilovogo obrazu dlya porodzhennya delt riznic mizh cilovimi ta faktichnimi znachennyami vihodu vsih nejroniv vihodu ta prihovanih nejroniv Utochnyuvannya vag Dlya kozhnoyi vagi Pomnozhiti deltu vihodu vagi na zbudzhennya vhodu shobi znajti gradiyent vagi Vidnyati vidnoshennya vidsotok gradiyenta vagi vid neyi Temp navchannya angl learning rate ce vidnoshennya vidsotok yake vplivaye na shvidkist i yakist navchannya Sho bilshe ce vidnoshennya to shvidshe trenuyetsya nejron ale sho ce vidnoshennya menshe to tochnishe navchannya Znak gradiyenta vagi vkazuye chi zminyuyetsya pohibka pryamo chi oberneno do vagi Tozh vagu neobhidno onovlyuvati v protilezhnomu napryamku spuskayuchis z gradiyenta Navchannya povtoryuyut na novih paketah doki merezha ne zapracyuye adekvatno Psevdokod Psevdokod dlya algoritmu stohastichnogo gradiyentnogo spusku dlya navchannya trisharovoyi merezhi odin prihovanij shar vstanoviti pochatkovi znachennya vag merezhi chasto mali vipadkovi znachennya robiti dlya kozhnogo trenuvalnogo prikladu pid nazvoyu pr zrobiti peredbachennya vihid nejronnoyi merezhi merezha pr pryamij prohid fakt rezultat vchitelya pr obchisliti pohibku peredbachennya fakt na vuzlah vihodu obchisliti Dwh displaystyle Delta w h dlya vsih vag z prihovanogo sharu do sharu vihodu zvorotnij prohid obchisliti Dwi displaystyle Delta w i dlya vsih vag z sharu vhodu do prihovanogo sharu prodovzhennya zvorotnogo prohodu utochniti vagi merezhi shar vhodu ocinkoyu pohibki ne zminyuyetsya poki riven pohibki ne stane prijnyatno nizkim povernuti merezhu Ryadki poznacheni yak zvorotnij prohid mozhe buti vtileno za dopomogoyu algoritmu zvorotnogo poshirennya yakij obchislyuye gradiyent pohibki merezhi shodo zminyuvanih vag merezhi PrimitkiZell Andreas 2003 chapter 5 2 Simulation neuronaler Netze Simulation of Neural Networks German vid 1st Addison Wesley ISBN 978 3 89319 554 1 OCLC 249017987 nim DAWSON CHRISTIAN W 1998 An artificial neural network approach to rainfall runoff modelling Hydrological Sciences Journal 43 1 47 66 doi 10 1080 02626669809492102 angl www cse unsw edu au Arhiv originalu za 26 serpnya 2018 Procitovano 18 serpnya 2019 angl M Forouzanfar H R Dajani V Z Groza M Bolic amp S Rajan July 2010 Comparison of Feed Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation 4th Int Workshop Soft Computing Applications Arad Romania IEEE angl Werbos Paul J 1994 The Roots of Backpropagation From Ordered Derivatives to Neural Networks and Political Forecasting New York NY John Wiley amp Sons Inc angl