Рекуре́нтні нейро́нні мере́жі (РНМ, англ. recurrent neural networks, RNN) — це клас штучних нейронних мереж, у якому з'єднання між вузлами утворюють граф орієнтований у часі. Це створює внутрішній стан мережі, що дозволяє їй проявляти динамічну поведінку в часі. На відміну від нейронних мереж прямого поширення, РНМ можуть використовувати свою внутрішню пам'ять для обробки довільних послідовностей входів. Це робить їх застосовними до таких задач, як розпізнавання несегментованого неперервного рукописного тексту та розпізнавання мовлення.
Архітектури
Повнорекурентна мережа
Це — основна архітектура, розроблена в 1980-х роках: мережа нейроноподібних вузлів, кожен з орієнтованим з'єднанням до кожного іншого вузла.[] Кожен з вузлів має змінну в часі дійснозначну активацію. Кожне з'єднання має змінювану дійснозначну [en]. Деякі з вузлів називаються входовими вузлами, деякі — виходовими, а решта — прихованими вузлами. Більшість із наведених нижче архітектур є окремими випадками.
Для постановок керованого навчання з дискретним часом тренувальні послідовності входових векторів стають послідовностями активацій входових вузлів, по одному вектору на кожен момент часу.[] В кожен заданий момент часу кожен не входовий вузол обчислює свою поточну активацію як нелінійну функцію від зваженої суми активацій всіх вузлів, від яких до нього надходять з'єднання.[] Для деяких із виходових вузлів на певних тактах можуть бути задані вчителем цільові активації. Наприклад, якщо входова послідовність є мовленнєвим сигналом, що відповідає вимовленій цифрі, то кінцевий цільовий вихід у кінці послідовності може бути міткою, яка класифікує цю цифру. Для кожної послідовності її похибка є сумою відхилень усіх цільових сигналів від відповідних активацій, обчислених мережею. Для тренувального набору численних послідовностей загальна похибка є сумою похибок усіх окремих послідовностей. Алгоритми мінімізації цієї похибки згадано в розділі алгоритмів тренування нижче.
У постановках навчання з підкріпленням не існує вчителя, який надавав би цільові сигнали для РНМ, натомість час від часу застосовується функція допасованості або функція винагороди для оцінювання продуктивності РНМ, яка впливає на її входовий потік через виходові вузли, з'єднані з приводами, що впливають на середовище. Знов-таки, зробіть порівняння в розділі про тренувальні алгоритми нижче.
Рекурсивні нейронні мережі
Рекурсивна нейронна мережа створюється рекурсивним застосуванням одного й того ж набору ваг до диференційовної графоподібної структури шляхом обходу цієї структури в топологічній послідовності. Також, такі мережі зазвичай тренують зворотним режимом автоматичного диференціювання. Їх було введено для навчання розподілених представлень структури, таких як терміни логіки. Окремим випадком рекурсивних нейронних мереж є самі РНМ, чия структура відповідає лінійному ланцюжкові. Рекурсивні нейронні мережі застосовували до обробки природної мови. Рекурсивна нейронна тензорна мережа (англ. Recursive Neural Tensor Network) використовує функцію компонування на основі тензорів для всіх вузлів дерева.
Мережа Хопфілда
Мережа Хопфілда становить історичний інтерес, хоч вона й не є загальноприйнятою РНМ, оскільки її побудовано не для обробки послідовностей зразків. Вона натомість вимагає стаціонарних входів. Вона є РНМ, в якій усі з'єднання є симетричними. Винайдена Джоном Хопфілдом 1982 року, вона гарантує, що її динаміка збігатиметься. Якщо з'єднання тренуються із застосуванням геббового навчання, то мережа Хопфілда може працювати як робастна асоціативна пам'ять, стійка до змін з'єднань.
Одним із варіантів мережі Хопфілда є двоспрямована асоціативна пам'ять (ДАП, англ. bidirectional associative memory, BAM). ДАП має два шари, кожен з яких можна використовувати як входовий, щоби викликати асоціацію й виробити вихід на іншому шарі.
Мережі Елмана та Джордана
Наступний окремий випадок наведеної вище основної архітектури було застосовано [en]. Використовується тришарова мережа (впорядкована на ілюстрації по горизонталі як x, y та z) з додаванням набору «контекстних вузлів» (англ. context units, на ілюстрації — u). Існують з'єднання з середнього (прихованого) шару з цими контекстними вузлами з незмінними одиничними вагами. На кожному такті вхід поширюється стандартним прямим чином, а потім застосовується правило навчання. Незмінні зворотні з'єднання призводять до того, що контекстні вузли завжди зберігають копію попередніх значень прихованих вузлів (оскільки вони поширюються з'єднаннями до застосування правила навчання). Таким чином, мережа Елмана може зберігати свого роду стан, що дозволяє їй виконувати такі задачі, як передбачення послідовностей, що є за межами можливостей стандартного багатошарового перцептрону.
Мережі Джордана, що завдячують своєю назвою [en], подібні до мереж Елмана. Проте подавання на контекстні вузли йде з виходового шару замість прихованого. Контекстні вузли в мережі Джордана також називають шаром стану, і вони мають рекурентні з'єднання самі з собою, без інших вузлів на цих з'єднаннях.
Мережі Елмана та Джордана відомі також як «прості рекурентні мережі» (ПРМ, англ. simple recurrent networks, SRN).
- Мережа Елмана
- Мережа Джордана
Змінні та функції
- : входовий вектор
- : вектор прихованого шару
- : виходовий вектор
- , та : матриці та вектор параметрів
- та : функції активації
Резервуарне обчислення
Резервуарне обчислення — особливий підхід у рекурентних нейронних мережах, що використовує фіксовану випадкову структуру, відому як «резервуар», для ефективної обробки тимчасових даних. Резервуар складається з взаємопов'язаних вузлів із випадковими з'єднаннями, що утворюють динамічну систему, здатну вловлювати складні часові закономірності. На відміну від традиційних РНМ, обчислення пластів передбачає навчання лише вихідного рівня, що спрощує процес навчання. Його обчислювальна ефективність, яка пояснюється фіксованою структурою резервуару, робить його вигідним для завдань, що потребують інтенсивної пам'яті. Застосування охоплюють різні сфери, такі як прогнозування часових рядів і розпізнавання мовлення, демонструючи свою ефективність у обробці послідовних даних. Типи, такі як мережа з відлунням стану (Echo State Networks) і рідкий скінченний автомат (Liquid State Machines,) розширюють його застосування в різних контекстах.
Незважаючи на свої переваги, оптимізація продуктивності пласта для конкретних завдань залишається проблемою. Тим не менш, резервуарні обчислення є перспективною архітектурою в РНМ, пропонуючи обчислювальну ефективність і майстерність в обробці тимчасової інформації. Постійні дослідження спрямовані на підвищення його можливостей і розширення його застосування в різних сферах. Ця парадигма являє собою значний прогрес в архітектурі нейронних мереж, готовий запровадити інновації в часовій обробці даних.
Мережа з відлунням стану
Мережа з відлунням стану (англ. echo state network, ESN) — це рекурентна нейронна мережа з розріджено з'єднаним випадковим прихованим шаром. Унікальність цієї мережі полягає у тому, що лише ваги виходних нейронів підлягають змінам та навчанню, тоді як структура та внутрішній стан резервуару залишаються незмінними. Такі мережі є добрими для відтворення певних часових рядів.
Основні особливості:
- Резервуар у мережі з відлунням стану має велику кількість взаємопов'язаних вузлів, що формують розріджений прихований шар.
- Лише вихідні ваги піддаються тренуванню, що спрощує процес навчання та зменшує обчислювальну складність.
- Мережі з відлунням стану відомі своєю здатністю успішно відтворювати складні часові ряди та використовуються у завданнях прогнозування та моделювання послідовних даних.
Рідкий скінченний автомат
Варіант для [en] відомий як рідкі скінченні автомати. Ця модифікація мережі дозволяє здійснювати більш точні та гнучкі прогнози в обробці послідовних даних.
Нейронний стискач історії
Проблему зникання градієнту автоматичного диференціювання та зворотного поширення в нейронних мережах було частково подолано 1992 року ранньою породжувальною моделлю, названою нейронним стискачем історії, реалізованою як некерована стопка рекурентних нейронних мереж (РНМ). РНМ на входовому рівні навчається передбачувати свій наступний вхід з історії попередніх входів. Лише непередбачувані входи певної РНМ в цій ієрархії стають входами до РНМ наступного вищого рівня, яка відтак переобчислює свій внутрішній стан лише зрідка. Кожна РНМ вищого рівня відтак навчається стисненого представлення інформації в нижчій РНМ. Це здійснюється таким чином, що вхідну послідовність може бути точно відтворено з представлення цієї послідовності на найвищому рівні. Ця система дієво мінімізує довжину опису або від'ємний логарифм імовірності даних. Якщо в послідовності вхідних даних є багато передбачуваності, яка піддається навчанню, то РНМ найвищого рівня може використовувати кероване навчання, щоби легко класифікувати навіть глибокі послідовності з дуже тривалими часовими інтервалами між важливими подіями. 1993 року така система вже розв'язала задачу «дуже глибокого навчання» (англ. Very Deep Learning), яка вимагає понад 1 000 послідовних шарів в розгорнутій у часі РНМ.
Також можливо перегнати всю цю ієрархію РНМ в лише дві РНМ, що називають «свідомим» фрагментатором (англ. "conscious" chunker, вищий рівень) та «підсвідомим» автоматизатором (англ. "subconscious" automatizer, нижчий рівень). Щойно фрагментатор навчився передбачувати та стискати входи, які є все ще не передбачуваними автоматизатором, то в наступній фазі навчання можна навантажити автоматизатор передбачуванням або імітуванням через особливі додаткові вузли прихованих вузлів повільніше змінюваного фрагментатора. Це полегшує автоматизаторові навчання доречних рідко змінюваних спогадів протягом дуже тривалих проміжків часу. Це, своєю чергою, допомагає автоматизаторові робити багато з його колись непередбачуваних входів передбачуваними, таким чином, що фрагментатор може зосередитися на решті все ще непередбачуваних подій, щоби стискати дані ще сильніше.
Довга короткочасна пам'ять
Численні дослідники нині використовують РНМ глибокого навчання, яку називають мережею довгої короткочасної пам'яті (ДКЧП, англ. long short-term memory, LSTM), опубліковану [en] та Шмідгубером 1997 року. Це система глибокого навчання, яка, на відміну від традиційних РНМ, не має проблеми зникання градієнту (порівняйте в розділі алгоритмів тренування нижче). ДКЧП в нормі є доповненою рекурентними вентилями, які називають забувальними (англ. forget gates). РНМ ДКЧП запобігають зниканню та вибуханню зворотно поширюваних похибок. Натомість похибки можуть плинути в зворотному напрямку крізь необмежене число віртуальних шарів розгорнутої в просторі РНМ ДКЧП. Тобто, ДКЧП може вчитися завдань «дуже глибокого навчання» (англ. Very Deep Learning), які вимагають спогадів про події, що трапилися тисячі або навіть мільйони тактів тому. Можливо розвивати ДКЧП-подібні проблемно-орієнтовані топології. ДКЧП працює навіть за тривалих затримок, і може обробляти сигнали, що мають суміш низько- та високочастотних складових.
Нині багато застосунків використовують стопки РНМ ДКЧП і тренують їх нейромережевою часовою класифікацією (НЧК, англ. Connectionist Temporal Classification, CTC) для знаходження такої вагової матриці РНМ, яка максимізує ймовірність послідовностей міток у тренувальному наборі для заданих відповідних вхідних послідовностей. НЧК досягає як вирівнювання, так і розпізнавання. Близько 2007 року ДКЧП почали революціювати розпізнавання мовлення, перевершуючи традиційні моделі в деяких мовленнєвих застосуваннях. 2009 року ДКЧП, тренована НЧК, стала першою РНМ, яка перемогла в змаганнях із розпізнавання образів, коли вона виграла кілька змагань із неперервного рукописного розпізнавання. 2014 року китайський пошуковий гігант Baidu застосував РНМ, треновані НЧК, щоби перевершити еталон розпізнавання мовлення Switchboard Hub5'00, без застосування жодних традиційних методів обробки мовлення. ДКЧП також поліпшила велико-словникове розпізнавання мовлення, синтез мовлення з тексту, також і для Google Android, і фото-реалістичні голови, що розмовляють. 2015 року в розпізнаванні мовлення Google, як повідомляється, стався різкий 49-відсотковий[] стрибок продуктивності завдяки НЧК-тренованій ДКЧП, яка тепер доступна через Google Voice Search всім користувачам смартфонів.
ДКЧП також стала дуже популярною в галузі обробки природної мови. На відміну від попередніх моделей на основі ПММ та подібних понять, ДКЧП може вчитися розпізнавати [en]. ДКЧП поліпшила машинний переклад, моделювання мов та багатомовну обробку мов. ДКЧП у поєднанні зі згортковими нейронними мережами (ЗНМ) також поліпшила автоматичний опис зображень і безліч інших застосувань.
Вентильний рекурентний вузол
Вентильний рекурентний вузол (англ. gated recurrent unit) є однією з рекурентних нейронних мереж, представлених 2014 року.
Двонаправлена РНМ
Винайдена Шустером та Палівалом 1997 року, двонаправлена РНМ (англ. bi-directional RNN), або ДРНМ (англ. BRNN), використовує скінченну послідовність, щоби передбачувати або мітити кожен елемент цієї послідовності на основі як минулого, так і майбутнього контексту цього елементу. Це здійснюється шляхом з'єднання виходів двох РНМ, одна з яких обробляє послідовність зліва направо, а інша — справа наліво. Поєднані виходи є передбаченнями заданих учителем цільових сигналів. Ця методика виявилася особливо корисною при поєднанні з РНМ ДКЧП.
РНМ неперервного часу
Рекурентна нейронна мережа неперервного часу (РНМНЧ, англ. continuous time recurrent neural network, CTRNN) — це модель динамічних систем біологічних нейронних мереж. Для моделювання впливів на нейрон входового ланцюжка активацій РНМНЧ застосовує систему звичайних диференціальних рівнянь.
Для нейрону в мережі з потенціалом дії темп зміни збудження задається як
де
- : часова стала постсинаптичного вузла
- : збудження постсинаптичного вузла
- : темп зміни збудження постсинаптичного вузла
- : вага з'єднання від пре- до постсинаптичного вузла
- : сигмоїда , наприклад, .
- : збудження пресинаптичного вузла
- : упередження пресинаптичного вузла
- : вхід (якщо є) до вузла
РНМНЧ часто застосовували в галузі [en], де їх використовували, щоби братися за, наприклад, бачення, взаємодію та мінімально пізнавальну поведінку.
Зауважте, що за теоремою відліків Шеннона рекурентні нейронні мережі дискретного часу можна розглядати як рекурентні нейронні мережі неперервного часу, в яких диференціальне рівняння було перетворено на рівнозначне різницеве рівняння після того, як функції збудження постсинаптичних вузлів було пропущено через низькочастотний фільтр перед дискретизацією.
Ієрархічна РНМ
Існує багато прикладів ієрархічних РНМ (англ. hierarchical RNN), чиї елементи з'єднано різними способами для розкладу ієрархічної поведінки на корисні підпрограми.
Рекурентний багатошаровий перцептрон
Як правило, рекурентний багатошаровий перцептрон (РБШП, англ. Recurrent Multi-Layer Perceptron, RMLP) складається з ряду каскадованих підмереж, кожна з яких складається з декількох шарів вузлів. Кожна з цих підмереж є мережею прямого поширення повністю, крім останнього шару, який може мати зворотні зв'язки всередині себе. Кожна з цих підмереж під'єднується лише зв'язками прямого поширення.
РНМ другого порядку
РНМ другого порядку (англ. second order RNN) використовують ваги вищих порядків замість стандартних вагів , а входи та стани можуть бути добутком. Це уможливлює пряме відображення на скінченний автомат, як у тренуванні, стійкості, так і в представленні. Довга короткочасна пам'ять є прикладом цього, крім того, що вона не має таких формальних відображень та доведення стійкості.
Модель рекурентної нейронної мережі кількох масштабів часу
Модель рекурентної нейронної мережі кількох масштабів часу (англ. multiple timescales recurrent neural network, MTRNN) є можливою обчислювальною моделлю на нейронній основі, яка до деякої міри імітує діяльність головного мозку. Вона має здатність імітувати функційну ієрархію головного мозку через самоорганізацію, яка залежить не лише від просторових зв'язків між нейронами, а й від окремих типів нейронної активності, кожного з окремими часовими властивостями. За таких різних нейронних активностей неперервні послідовності будь-якої множини поведінки сегментуються на придатні до повторного використання примітиви, які своєю чергою гнучко вбудовуються до різноманітних послідовностей поведінки. Біологічне підтвердження такого типу ієрархії обговорювалося в теорії пам'яті—передбачування функціювання мозку [en] у його книзі «Про інтелект».
Послідовні каскадні мережі Поллака
англ. Pollack's sequential cascaded networks
Нейронні машини Тюрінга
Нейронні машини Тюрінга (НМТ, англ. Neural Turing machine, NTM) — це метод розширення можливостей рекурентних нейронних мереж шляхом з'єднання їх із зовнішніми ресурсами пам'яті, з якими вони можуть взаємодіяти за допомогою . Така об'єднана система аналогічна машині Тюрінга або архітектурі фон Неймана, але є диференційовною з краю в край, що дозволяє їй продуктивно тренуватися за допомогою градієнтного спуску.
Нейромережеві магазинні автомати
Нейромережеві магазинні автомати (англ. Neural network pushdown automata, NNPDA) аналогічні НМТ, але стрічки замінюються аналоговими стеками, які є диференційовними, і тренуються для керування. Таким чином, вони подібні за складністю до розпізнавачів контекстно-вільних граматик.
Двоспрямована асоціативна пам'ять
Представлені вперше Бартом Коско, мережі двоспрямованої асоціативної пам'яті (ДАП, англ. bidirectional associative memory, BAM) зберігають асоціативні дані як вектор. Двоспрямованість походить від передавання інформації матрицею та її транспозицією. Як правило, для двійкового кодування пар асоціацій віддають перевагу [en]. Нещодавно стохастичні моделі ДАП з марковським кроком було оптимізовано для вищої стійкості мережі та відповідності для реальних застосувань.
Тренування
Градієнтний спуск
Щоби мінімізувати загальну похибку, може застосовуватися градієнтний спуск для зміни кожної ваги пропорційно похідній похибки по відношенню до цієї ваги, за умови, що нелінійні функції активації є диференційовними. Для здійснення цього в 1980-х і на початку 1990-х років було розроблено різні методи [en], [en], Тоні Робінсоном, Юргеном Шмідгубером, [en], та іншими.
Стандартний метод називається «зворотне поширення в часі» (англ. backpropagation through time), або ЗПЧ (англ. BPTT), і є узагальненням зворотного поширення для мереж прямого поширення, і, як і той метод, є зразком автоматичного диференціювання в режимі зворотного накопичення, або принципу мінімуму Понтрягіна. Обчислювально більш витратний інтерактивний варіант називається «реальночасове рекурентне навчання» (англ. Real-Time Recurrent Learning), або РЧРН (англ. RTRL), і є зразком автоматичного диференціювання в режимі послідовного накопичення зі складеними векторами тангенсів. На відміну від ЗПЧ, цей алгоритм є локальним в часі, але не локальним у просторі.
В цьому контексті локальний у просторі означає, що вектор ваг вузла може бути уточнено лише із застосуванням інформації, що зберігається в з'єднаних вузлах та самому вузлі, так що складність уточнення одного вузла є лінійною по відношенню до розмірності вектору ваг. Локальний в часі означає, що уточнення відбуваються неперервно (інтерактивно), і залежать лише від найнещодавнішого такту, а не від декількох тактів у межах заданого обрію часу, як у ЗПЧ. Біологічні нейронні мережі видаються локальними як у часі, так і в просторі.
Недоліком РНРЧ є те, що для рекурсивного обчислення часткових похідних від має часову складність Ο(кількість прихованих × кількість ваг) на такт для обчислення матриць Якобі, тоді як ЗПЧ займає лише Ο(кількість ваг) на такт, ціною, проте, зберігання всіх прямих активацій в межах заданого обрію часу.
Існує також інтерактивний гібрид ЗПЧ і РНРЧ з проміжною складністю, і є варіанти для неперервного часу. Головною проблемою градієнтного спуску для стандартних архітектур РНМ є те, що градієнти похибки зникають експоненційно швидко з розміром часової затримки між важливими подіями. Як спробу подолання цих проблем було запропоновано архітектуру довгої короткочасної пам'яті разом з гібридним методом навчання ЗПЧ/РНРЧ.
Крім того, інтерактивний алгоритм, що називається причинним рекурсивним зворотним поширенням (ПРЗП, англ. causal recursive backpropagation, CRBP), реалізує та поєднує разом парадигми ЗПЧ та РНРЧ для локальної рекурентної мережі. Він працює з найзагальнішими локально рекурентними мережами. Алгоритм ПРЗП може мінімізувати глобальну похибку; цей факт призводить до поліпшеної стійкості алгоритму, забезпечуючи об'єднавчий погляд на методики градієнтних обчислень для рекурентних мереж із локальним зворотним зв'язком.
Цікавий підхід до обчислення градієнтної інформації в РНМ довільних архітектур, що запропонували Ван та Буфе, ґрунтується на діаграмному виведенні графів плину сигналу для отримання пакетного алгоритму ЗПЧ, тоді як Камполуччі, Унчіні та Піацца запропонували його швидку інтерактивну версію на основі теореми Лі для обчислення чутливості мереж.
Методи глобальної оптимізації
Тренування ваг у нейронній мережі можливо моделювати як нелінійну задачу глобальної оптимізації. Цільову функцію для оцінки допасованості або похибки певного вагового вектора може бути сформовано таким чином: Спершу ваги в мережі встановлюються відповідно до цього вагового вектора. Далі, мережа оцінюється за тренувальною послідовністю. Як правило, для представлення похибки поточного вагового вектора використовують суму квадратів різниць між передбаченнями та цільовими значеннями, вказаними в тренувальній послідовності. Потім для мінімізації цієї цільової функції може бути застосовано довільні методики глобальної оптимізації.
Найуживанішим методом глобальної оптимізації для тренування РНМ є генетичні алгоритми, особливо в неструктурованих мережах.
Спочатку генетичний алгоритм кодується вагами нейронної мережі в наперед визначеному порядку, коли один ген у хромосомі представляє одне зважене з'єднання, і так далі; вся мережа представляється єдиною хромосомою. Функція допасованості обчислюється наступним чином: 1) кожна вага, закодована в хромосомі, призначається відповідному зваженому з'єднанню мережі; 2) потім тренувальний набір зразків представляється мережі, яка поширює вхідні сигнали далі; 3) до функції допасованості повертається середньоквадратична похибка; 4) ця функція потім веде процес генетичного відбору.
Популяцію складають багато хромосом; таким чином, багато різних нейронних мереж еволюціюють, поки не буде досягнуто критерію зупинки. Поширеною схемою зупинки є: 1) коли нейронна мережа засвоїла певний відсоток тренувальних даних, або 2) коли досягнуто мінімального значення середньоквадратичної похибки, або 3) коли було досягнуто максимального числа тренувальних поколінь. Критерій зупинки оцінюється функцією допасованості при отриманні нею оберненого значення середньоквадратичної похибки з кожної з нейронних мереж під час тренування. Отже, метою генетичного алгоритму є максимізувати функцію допасованості, знизивши таким чином середньоквадратичну похибку.
Для пошуку доброго набору ваг можуть застосовуватися й інші методики глобальної (та/або еволюційної) оптимізації, такі як імітація відпалу та метод рою часток.
Пов'язані галузі та моделі
РНМ можуть поводитися хаотично. В таких випадках для аналізу можна використовувати теорію динамічних систем.
Рекурентні нейронні мережі насправді є рекурсивними нейронними мережами з певною структурою: такою, як в лінійного ланцюжка. В той час як рекурсивні нейронні мережі працюють на будь-якій ієрархічній структурі, поєднуючи дочірні представлення в батьківські, рекурентні нейронні мережі діють на лінійній послідовності часу, поєднуючи попередній такт і приховане представлення в представлення поточного такту.
Рекурентні нейронні мережі, зокрема, можна представляти як нелінійні версії фільтрів зі скінченною та [en], а також як нелінійну авторегресійну екзогенну модель (англ. nonlinear autoregressive exogenous model, NARX).
Поширені бібліотеки РНМ
- [en]
- Caffe: Створена Центром бачення та навчання Берклі (англ. Berkeley Vision and Learning Center, BVLC). Підтримує як ЦП, так і ГП. Розроблена мовою , має обгортки для Python та MATLAB.
- Deeplearning4j: Глибоке навчання в Java та Scala на Spark з підтримкою багатьох ГП. Бібліотека глибокого навчання [ 30 березня 2016 у Wayback Machine.] загального призначення для продуктового стека JVM, що працює на рушії наукових обчислень C++ [ 11 червня 2018 у Wayback Machine.]. Дозволяє створювати спеціальні шари. Інтегрується з Hadoop та Kafka.
- Keras
- Microsoft Cognitive Toolkit
- TensorFlow: Theano-подібна бібліотека з ліцензією Apache 2.0 з підтримкою ЦП, ГП та запатентованих компанією Google ТП, мобільних
- Theano: Еталонна бібліотека глибокого навчання для Python з ППІ, значною мірою сумісним з популярною бібліотекою NumPy. Дозволяє користувачам писати символічні математичні вирази, потім автоматично породжує їхні похідні, вберігаючи користувача від обов'язку кодувати градієнти або зворотне поширення. Ці символічні вирази автоматично компілюються в CUDA для отримання швидкої реалізації на ГП.
- Torch (www.torch.ch [ 9 липня 2016 у Wayback Machine.]): Науковий обчислювальний каркас із широкою підтримкою алгоритмів машинного навчання, написаний мовами C та lua. Головним автором є Ронан Коллоберт, наразі застосовується у Facebook AI Research та Twitter.
Додаткова література
Книги
- Tyagi, Amit Kumar; Abraham, Ajith, ред. (2023). Recurrent neural networks: concepts and applications (1st edition). Boca Raton London New York: CRC Press, . ISBN .
- Salem, Fathi M. (2022). Recurrent Neural Networks: From Simple to Gated Architectures (англ.). Cham: Springer International Publishing, Springer Nature. ISBN .
Статті
- Talaei Khoei, Tala; Ould Slimane, Hadjar; Kaabouch, Naima (2023-11). Deep learning: systematic review, models, challenges, and research directions. Neural Computing and Applications (англ.) 35 (31). doi:10.1007/s00521-023-08957-4.
- Orojo, Oluwatamilore; Tepper, Jonathan; McGinnity, T. M.; Mahmud, Mufti (1 січня 2023). The Multi-Recurrent Neural Network for State-Of-The-Art Time-Series Processing. Procedia Computer Science 222. doi:10.1016/j.procs.2023.08.187.
- A Review of Recurrent Neural Network-Based Methods in Computational Physiology | IEEE Journals & Magazine. doi:10.1109/tnnls.2022.3145365.
Примітки
- A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009. (англ.)
- H. Sak and A. W. Senior and F. Beaufays. Long short-term memory recurrent neural network architectures for large scale acoustic modeling. Proc. Interspeech, pp338-342, Singapore, Sept. 201 (англ.)
- Goller, C.; Küchler, A. Learning task-dependent distributed representations by backpropagation through structure. Neural Networks, 1996., IEEE. doi:10.1109/ICNN.1996.548916. (англ.)
- [en] (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7. (фін.)
- Griewank, Andreas and Walther, A.. Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM, 2008. (англ.)
- Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. The 28th International Conference on Machine Learning (ICML 2011). (англ.)
- Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. (PDF). EMNLP 2013. Архів оригіналу (PDF) за 28 грудня 2016. Процитовано 17 квітня 2017. (англ.)
- Rául Rojas (1996). Neural networks: a systematic introduction. Springer. с. 336. ISBN . (англ.)
- Cruse, Holk; Neural Networks as Cybernetic Systems [ 20 жовтня 2016 у Wayback Machine.], 2nd and revised edition (англ.)
- Elman, Jeffrey L. (1990). Finding Structure in Time. Cognitive Science. 14 (2): 179—211. doi:10.1016/0364-0213(90)90002-E. (англ.)
- Jordan, Michael I. (1986). Serial Order: A Parallel Distributed Processing Approach. (англ.)
- Tanaka, Gouhei; Yamane, Toshiyuki; Héroux, Jean Benoit; Nakane, Ryosho; Kanazawa, Naoki; Takeda, Seiji; Numata, Hidetoshi; Nakano, Daiju; Hirose, Akira (1 липня 2019). Recent advances in physical reservoir computing: A review. Neural Networks. Т. 115. с. 100—123. doi:10.1016/j.neunet.2019.03.005. ISSN 0893-6080. Процитовано 15 грудня 2023.
- Gauthier, Daniel J.; Bollt, Erik; Griffith, Aaron; Barbosa, Wendson A. S. (21 вересня 2021). Next generation reservoir computing. Nature Communications (англ.). Т. 12, № 1. с. 5564. doi:10.1038/s41467-021-25801-2. ISSN 2041-1723. PMC 8455577. PMID 34548491. Процитовано 15 грудня 2023.
{{}}
: Обслуговування CS1: Сторінки з PMC з іншим форматом () - H. Jaeger. Harnessing nonlinearity: Predicting chaotic systems and saving energy in wireless communication. Science, 304:78–80, 2004. (англ.)
- Ma, Qianli; Chen, Weibiao; Wei, Jia; Yu, Zhiwen (1 вересня 2014). Direct model of memory properties and the linear reservoir topologies in echo state networks. Applied Soft Computing. Т. 22. с. 622—628. doi:10.1016/j.asoc.2014.04.038. ISSN 1568-4946. Процитовано 15 грудня 2023.
- Steiner, Peter; Jalalvand, Azarakhsh; Birkholz, Peter (2023-12). Exploring unsupervised pre-training for echo state networks. Neural Computing and Applications (англ.). Т. 35, № 34. с. 24225—24242. doi:10.1007/s00521-023-08988-x. ISSN 0941-0643. Процитовано 15 грудня 2023.
- W. Maass, T. Natschläger, and H. Markram. A fresh look at real-time computation in generic recurrent neural circuits. Technical report, Institute for Theoretical Computer Science, TU Graz, 2002. (англ.)
- Deckers, Lucas; Tsang, Ing Jyh; Van Leekwijck, Werner; Latré, Steven (2022). Extended liquid state machines for speech recognition. Frontiers in Neuroscience. Т. 16. doi:10.3389/fnins.2022.1023470. ISSN 1662-453X. PMC 9651956. PMID 36389242. Процитовано 15 грудня 2023.
{{}}
: Обслуговування CS1: Сторінки з PMC з іншим форматом () Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Mosaic LSM: A Liquid State Machine Approach for Multimodal Longitudinal Data Analysis | IEEE Conference Publication | IEEE Xplore. ieeexplore.ieee.org. doi:10.1109/ijcnn54540.2023.10191256. Процитовано 15 грудня 2023.
- Real-world Performance Estimation of Liquid State Machines for Spoken Digit Classification | IEEE Conference Publication | IEEE Xplore. ieeexplore.ieee.org. doi:10.1109/ijcnn54540.2023.10191451. Процитовано 15 грудня 2023.
- Pan, Wenxuan; Zhao, Feifei; Zeng, Yi; Han, Bing (7 жовтня 2023). Adaptive structure evolution and biologically plausible synaptic plasticity for recurrent spiking neural networks. Scientific Reports (англ.). Т. 13, № 1. с. 16924. doi:10.1038/s41598-023-43488-x. ISSN 2045-2322. PMC 10560283. PMID 37805632. Процитовано 15 грудня 2023.
{{}}
: Обслуговування CS1: Сторінки з PMC з іншим форматом () - [en] (1991), Untersuchungen zu dynamischen neuronalen Netzen [ 6 березня 2015 у Wayback Machine.], Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber. (нім.)
- Jürgen Schmidhuber. Learning complex, extended sequences using the principle of history compression. Neural Computation, 4(2):234–242. Online[недоступне посилання] (англ.)
- Jürgen Schmidhuber (2015). Deep Learning. Scholarpedia, 10(11):32832. Section on Unsupervised Pre-Training of RNNs and FNNs [ 19 квітня 2016 у Wayback Machine.] (англ.)
- Jürgen Schmidhuber (1993). Habilitation thesis, TUM, 1993. Page 150 ff demonstrates credit assignment across the equivalent of 1,200 layers in an unfolded RNN. Online[недоступне посилання] (англ.)
- [en]; and Schmidhuber, Jürgen; Long Short-Term Memory, Neural Computation, 9(8):1735–1780, 1997 (англ.)
- Felix Gers, Nicholas Schraudolph, and Jürgen Schmidhuber (2002). Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research 3:115–143. (англ.)
- Jürgen Schmidhuber (2015). Deep learning in neural networks: An overview. Neural Networks 61 (2015): 85-117. ArXiv [ 8 травня 2017 у Wayback Machine.] (англ.)
- Justin Bayer, Daan Wierstra, Julian Togelius, and Jürgen Schmidhuber (2009). Evolving memory cell structures for sequence learning. Proceedings of ICANN (2), pp. 755—764. (англ.)
- Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). Sequence labelling in structured domains with hierarchical recurrent neural networks. Proceedings of IJCAI. (англ.)
- Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets. Proceedings of ICML'06, pp. 369—376. (англ.)
- Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting. Proceedings of ICANN (2), pp. 220—229. (англ.)
- Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545—552 (англ.)
- Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, Andrew Ng (2014). Deep Speech: Scaling up end-to-end speech recognition. arXiv:1412.5567 [ 21 грудня 2016 у Wayback Machine.] (англ.)
- Hasim Sak and Andrew Senior and Francoise Beaufays (2014). Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling. Proceedings of Interspeech 2014. (англ.)
- Xiangang Li, Xihong Wu (2015). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition arXiv:1410.4281 [ 26 вересня 2017 у Wayback Machine.] (англ.)
- Bo Fan, Lijuan Wang, Frank K. Soong, and Lei Xie (2015). Photo-Real Talking Head with Deep Bidirectional LSTM. In Proceedings of ICASSP 2015. (англ.)
- Heiga Zen and Hasim Sak (2015). Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis. In Proceedings of ICASSP, pp. 4470-4474. (англ.)
- Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays and Johan Schalkwyk (September 2015): Google voice search: faster and more accurate. [ 9 березня 2016 у Wayback Machine.] (англ.)
- Felix A. Gers and Jürgen Schmidhuber. LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE TNN 12(6):1333–1340, 2001. (англ.)
- Ilya Sutskever, Oriol Vinyals, and Quoc V. Le (2014). Sequence to Sequence Learning with Neural Networks. arXiv [ 29 квітня 2017 у Wayback Machine.] (англ.)
- Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, Yonghui Wu (2016). Exploring the Limits of Language Modeling. arXiv [ 6 червня 2017 у Wayback Machine.] (англ.)
- Dan Gillick, Cliff Brunk, Oriol Vinyals, Amarnag Subramanya (2015). Multilingual Language Processing From Bytes. arXiv [ 26 липня 2017 у Wayback Machine.] (англ.)
- Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan (2015). Show and Tell: A Neural Image Caption Generator. arXiv [ 4 квітня 2017 у Wayback Machine.] (англ.)
- Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing, 45:2673–81, November 1997. (англ.)
- A. Graves and J. Schmidhuber. Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks, 18:602–610, 2005. (англ.)
- Harvey, Inman; Husbands, P.; Cliff, D. (1994). Seeing the light: Artificial evolution, real vision. Proceedings of the third international conference on Simulation of adaptive behavior: from animals to animats 3: 392—401. (англ.)
- Quinn, Matthew (2001). Evolving communication without dedicated communication channels. Advances in Artificial Life. Lecture Notes in Computer Science. 2159: 357—366. doi:10.1007/3-540-44811-X_38. ISBN . (англ.)
- Beer, R.D. (1997). The dynamics of adaptive behavior: A research program. Robotics and Autonomous Systems. 20 (2–4): 257—289. doi:10.1016/S0921-8890(96)00063-2. (англ.)
- R.W. Paine, J. Tani, "How hierarchical control self-organizes in artificial adaptive systems, " Adaptive Behavior, 13(3), 211—225, 2005. (англ.)
- . Citeseerx.ist.psu.edu. Архів оригіналу за 28 грудня 2013. Процитовано 3 січня 2014. (англ.)
- C.L. Giles, C.B. Miller, D. Chen, H.H. Chen, G.Z. Sun, Y.C. Lee, «Learning and Extracting Finite State Automata with Second-Order Recurrent Neural Networks» [ 15 квітня 2021 у Wayback Machine.], Neural Computation, 4(3), p. 393, 1992. (англ.)
- C.W. Omlin, C.L. Giles, «Constructing Deterministic Finite-State Automata in Recurrent Neural Networks» [ 18 квітня 2017 у Wayback Machine.] Journal of the ACM, 45(6), 937—972, 1996. (англ.)
- Y. Yamashita, J. Tani, "Emergence of functional hierarchy in a multiple timescale neural network model: a humanoid robot experiment, " PLoS Computational Biology, 4(11), e1000220, 211—225, 2008. http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000220 [ 5 березня 2022 у Wayback Machine.] (англ.)
- Alnajjar F, Yamashita Y, Tani J (2013) The Hierarchical and Functional Connectivity of Higher-order Cognitive Mechanisms: Neurorobotic Model to Investigate the Stability and Flexibility of Working Memory, Frontiers in Neurorobotics, 7:2. doi: 10.3389/fnbot.2013.00002 PMID 3575058 (англ.)
- Graves, Alex; Wayne, Greg; Danihelka, Ivo (2014). (PDF). arXiv:1410.5401. Архів оригіналу (PDF) за 7 червня 2017. Процитовано 17 квітня 2017. (англ.)
- Guo-Zheng Sun, C. Lee Giles, Hsing-Hen Chen, "The Neural Network Pushdown Automaton: Architecture, Dynamics and Training, " Adaptive Processing of Sequences and Data Structures, Lecture Notes in Computer Science, Volume 1387, 296—345, 1998. (англ.)
- Kosko, B. (1988). Bidirectional associative memories. IEEE Transactions on Systems, Man, and Cybernetics. 18 (1): 49—60. doi:10.1109/21.87054. (англ.)
- Rakkiyappan, R.; Chandrasekar, A.; Lakshmanan, S.; Park, Ju H. (2 січня 2015). Exponential stability for markovian jumping stochastic BAM neural networks with mode-dependent probabilistic time-varying delays and impulse control. Complexity. 20 (3): 39—65. doi:10.1002/cplx.21503. (англ.)
- P. J. Werbos. Generalization of backpropagation with application to a recurrent gas market model. Neural Networks, 1, 1988. (англ.)
- David E. Rumelhart; Geoffrey E. Hinton; Ronald J. Williams. Learning Internal Representations by Error Propagation. (англ.)
- A. J. Robinson and F. Fallside. The utility driven dynamic error propagation network. Technical Report CUED/F-INFENG/TR.1, Cambridge University Engineering Department, 1987. (англ.)
- R. J. Williams and D. Zipser. Gradient-based learning algorithms for recurrent networks and their computational complexity. In Back-propagation: Theory, Architectures and Applications. Hillsdale, NJ: Erlbaum, 1994. (англ.)
- J. Schmidhuber. A local learning algorithm for dynamic feedforward and recurrent networks. Connection Science, 1(4):403–412, 1989. (англ.)
- Neural and Adaptive Systems: Fundamentals through Simulation. J.C. Principe, N.R. Euliano, W.C. Lefebvre (англ.)
- Ollivier, Y. and Tallec, C. and Charpiat, G. (2015). Training recurrent networks online without backtracking. arXiv [ 6 липня 2017 у Wayback Machine.] (англ.)
- J. Schmidhuber. A fixed size storage O(n3) time complexity learning algorithm for fully recurrent continually running networks. Neural Computation, 4(2):243–248, 1992. (англ.)
- R. J. Williams. Complexity of exact gradient computation algorithms for recurrent neural networks. Technical Report Technical Report NU-CCS-89-27, Boston: Northeastern University, College of Computer Science, 1989. (англ.)
- B. A. Pearlmutter. Learning state space trajectories in recurrent neural networks. Neural Computation, 1(2):263–269, 1989. (англ.)
- [en], Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001. (англ.)
- P. Campolucci, A. Uncini, F. Piazza, B. D. Rao (1999). On-Line Learning Algorithms for Locally Recurrent Neural Networks. IEEE Transaction On Neural Networks. 10 (2): 253—271 — через http://ieeexplore.ieee.org/document/750549/. (англ.)
- E. A. Wan, F. Beaufays (1996). Diagrammatic derivation of gradient algorithms for neural networks. Neural Computation. 8: 182—201 — через http://www.mitpressjournals.org/doi/abs/10.1162/neco.1996.8.1.182?journalCode=neco#.WJ14jYWcGOw. (англ.)
- P. Campolucci, A. Uncini, F. Piazza (2000). A Signal-Flow-Graph Approach to On-line Gradient Calculation. Neural Computation. 12: 1901—1927 — через http://www.mitpressjournals.org/doi/abs/10.1162/089976600300015196?journalCode=neco#.WJ16EoWcGOw. (англ.)
- A. Y. Lee (1974). Signal Flow Graphs-Computer-Aided System Analysis and Sensitivity Calculations. IEEE Transactions on Circuits and Systems. 21: 209—216 — через http://ieeexplore.ieee.org/document/1083832/. (англ.)
- F. J. Gomez and R. Miikkulainen. Solving non-Markovian control tasks with neuroevolution. Proc. IJCAI 99, Denver, CO, 1999. Morgan Kaufmann. (англ.)
- . Архів оригіналу за 6 грудня 2010. Процитовано 17 квітня 2017. (англ.)
- F. Gomez, J. Schmidhuber, R. Miikkulainen. Accelerated Neural Evolution through Cooperatively Coevolved Synapses. Journal of Machine Learning Research (JMLR), 9:937-965, 2008. (англ.)
- Hava T. Siegelmann, Bill G. Horne, C. Lee Giles, "Computational capabilities of recurrent NARX neural networks, " IEEE Transactions on Systems, Man, and Cybernetics, Part B 27(2): 208—215 (1997). (англ.)
- Cade Metz (18 травня 2016). . Wired. Архів оригіналу за 13 січня 2018. Процитовано 17 квітня 2017. (англ.)
- Mandic, Danilo P. & Chambers, Jonathon A. (2001). Recurrent Neural Networks for Prediction: Learning Algorithms, Architectures and Stability. Wiley. ISBN .
Посилання
- RNNSharp [ 4 серпня 2017 у Wayback Machine.] CRF на основі рекурентних нейронних мереж (C#, .NET)
- Recurrent Neural Networks [ 2 січня 2014 у Wayback Machine.] з понад 60 працями з РНМ від групи Юргена Шмідгубера в [en] (англ.)
- Реалізація нейронної мережі Елмана [ 2 лютого 2017 у Wayback Machine.] для WEKA
- (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ne plutati z Rekursivna nejronna merezha Rekure ntni nejro nni mere zhi RNM angl recurrent neural networks RNN ce klas shtuchnih nejronnih merezh u yakomu z yednannya mizh vuzlami utvoryuyut graf oriyentovanij u chasi Ce stvoryuye vnutrishnij stan merezhi sho dozvolyaye yij proyavlyati dinamichnu povedinku v chasi Na vidminu vid nejronnih merezh pryamogo poshirennya RNM mozhut vikoristovuvati svoyu vnutrishnyu pam yat dlya obrobki dovilnih poslidovnostej vhodiv Ce robit yih zastosovnimi do takih zadach yak rozpiznavannya nesegmentovanogo neperervnogo rukopisnogo tekstu ta rozpiznavannya movlennya ArhitekturiPovnorekurentna merezha Ce osnovna arhitektura rozroblena v 1980 h rokah merezha nejronopodibnih vuzliv kozhen z oriyentovanim z yednannyam do kozhnogo inshogo vuzla dzherelo Kozhen z vuzliv maye zminnu v chasi dijsnoznachnu aktivaciyu Kozhne z yednannya maye zminyuvanu dijsnoznachnu en Deyaki z vuzliv nazivayutsya vhodovimi vuzlami deyaki vihodovimi a reshta prihovanimi vuzlami Bilshist iz navedenih nizhche arhitektur ye okremimi vipadkami Dlya postanovok kerovanogo navchannya z diskretnim chasom trenuvalni poslidovnosti vhodovih vektoriv stayut poslidovnostyami aktivacij vhodovih vuzliv po odnomu vektoru na kozhen moment chasu proyasniti V kozhen zadanij moment chasu kozhen ne vhodovij vuzol obchislyuye svoyu potochnu aktivaciyu yak nelinijnu funkciyu vid zvazhenoyi sumi aktivacij vsih vuzliv vid yakih do nogo nadhodyat z yednannya proyasniti Dlya deyakih iz vihodovih vuzliv na pevnih taktah mozhut buti zadani vchitelem cilovi aktivaciyi Napriklad yaksho vhodova poslidovnist ye movlennyevim signalom sho vidpovidaye vimovlenij cifri to kincevij cilovij vihid u kinci poslidovnosti mozhe buti mitkoyu yaka klasifikuye cyu cifru Dlya kozhnoyi poslidovnosti yiyi pohibka ye sumoyu vidhilen usih cilovih signaliv vid vidpovidnih aktivacij obchislenih merezheyu Dlya trenuvalnogo naboru chislennih poslidovnostej zagalna pohibka ye sumoyu pohibok usih okremih poslidovnostej Algoritmi minimizaciyi ciyeyi pohibki zgadano v rozdili algoritmiv trenuvannya nizhche U postanovkah navchannya z pidkriplennyam ne isnuye vchitelya yakij nadavav bi cilovi signali dlya RNM natomist chas vid chasu zastosovuyetsya funkciya dopasovanosti abo funkciya vinagorodi dlya ocinyuvannya produktivnosti RNM yaka vplivaye na yiyi vhodovij potik cherez vihodovi vuzli z yednani z privodami sho vplivayut na seredovishe Znov taki zrobit porivnyannya v rozdili pro trenuvalni algoritmi nizhche Rekursivni nejronni merezhi Dokladnishe Rekursivna nejronna merezha Rekursivna nejronna merezha stvoryuyetsya rekursivnim zastosuvannyam odnogo j togo zh naboru vag do diferencijovnoyi grafopodibnoyi strukturi shlyahom obhodu ciyeyi strukturi v topologichnij poslidovnosti Takozh taki merezhi zazvichaj trenuyut zvorotnim rezhimom avtomatichnogo diferenciyuvannya Yih bulo vvedeno dlya navchannya rozpodilenih predstavlen strukturi takih yak termini logiki Okremim vipadkom rekursivnih nejronnih merezh ye sami RNM chiya struktura vidpovidaye linijnomu lancyuzhkovi Rekursivni nejronni merezhi zastosovuvali do obrobki prirodnoyi movi Rekursivna nejronna tenzorna merezha angl Recursive Neural Tensor Network vikoristovuye funkciyu komponuvannya na osnovi tenzoriv dlya vsih vuzliv dereva Merezha Hopfilda Dokladnishe Merezha Hopfilda Merezha Hopfilda stanovit istorichnij interes hoch vona j ne ye zagalnoprijnyatoyu RNM oskilki yiyi pobudovano ne dlya obrobki poslidovnostej zrazkiv Vona natomist vimagaye stacionarnih vhodiv Vona ye RNM v yakij usi z yednannya ye simetrichnimi Vinajdena Dzhonom Hopfildom 1982 roku vona garantuye sho yiyi dinamika zbigatimetsya Yaksho z yednannya trenuyutsya iz zastosuvannyam gebbovogo navchannya to merezha Hopfilda mozhe pracyuvati yak robastna asociativna pam yat stijka do zmin z yednan Odnim iz variantiv merezhi Hopfilda ye dvospryamovana asociativna pam yat DAP angl bidirectional associative memory BAM DAP maye dva shari kozhen z yakih mozhna vikoristovuvati yak vhodovij shobi viklikati asociaciyu j virobiti vihid na inshomu shari Merezhi Elmana ta Dzhordana Dokladnishe Merezha Elmana ta Merezha Dzhordana Merezha Elmana Nastupnij okremij vipadok navedenoyi vishe osnovnoyi arhitekturi bulo zastosovano en Vikoristovuyetsya trisharova merezha vporyadkovana na ilyustraciyi po gorizontali yak x y ta z z dodavannyam naboru kontekstnih vuzliv angl context units na ilyustraciyi u Isnuyut z yednannya z serednogo prihovanogo sharu z cimi kontekstnimi vuzlami z nezminnimi odinichnimi vagami Na kozhnomu takti vhid poshiryuyetsya standartnim pryamim chinom a potim zastosovuyetsya pravilo navchannya Nezminni zvorotni z yednannya prizvodyat do togo sho kontekstni vuzli zavzhdi zberigayut kopiyu poperednih znachen prihovanih vuzliv oskilki voni poshiryuyutsya z yednannyami do zastosuvannya pravila navchannya Takim chinom merezha Elmana mozhe zberigati svogo rodu stan sho dozvolyaye yij vikonuvati taki zadachi yak peredbachennya poslidovnostej sho ye za mezhami mozhlivostej standartnogo bagatosharovogo perceptronu Merezhi Dzhordana sho zavdyachuyut svoyeyu nazvoyu en podibni do merezh Elmana Prote podavannya na kontekstni vuzli jde z vihodovogo sharu zamist prihovanogo Kontekstni vuzli v merezhi Dzhordana takozh nazivayut sharom stanu i voni mayut rekurentni z yednannya sami z soboyu bez inshih vuzliv na cih z yednannyah Merezhi Elmana ta Dzhordana vidomi takozh yak prosti rekurentni merezhi PRM angl simple recurrent networks SRN Merezha Elmana h t s h W h x t U h h t 1 b h y t s y W y h t b y displaystyle begin aligned h t amp sigma h W h x t U h h t 1 b h y t amp sigma y W y h t b y end aligned Merezha Dzhordana h t s h W h x t U h y t 1 b h y t s y W y h t b y displaystyle begin aligned h t amp sigma h W h x t U h y t 1 b h y t amp sigma y W y h t b y end aligned Zminni ta funkciyi x t displaystyle x t vhodovij vektor h t displaystyle h t vektor prihovanogo sharu y t displaystyle y t vihodovij vektor W displaystyle W U displaystyle U ta b displaystyle b matrici ta vektor parametriv s h displaystyle sigma h ta s y displaystyle sigma y funkciyi aktivaciyi Rezervuarne obchislennya Rezervuarne obchislennya osoblivij pidhid u rekurentnih nejronnih merezhah sho vikoristovuye fiksovanu vipadkovu strukturu vidomu yak rezervuar dlya efektivnoyi obrobki timchasovih danih Rezervuar skladayetsya z vzayemopov yazanih vuzliv iz vipadkovimi z yednannyami sho utvoryuyut dinamichnu sistemu zdatnu vlovlyuvati skladni chasovi zakonomirnosti Na vidminu vid tradicijnih RNM obchislennya plastiv peredbachaye navchannya lishe vihidnogo rivnya sho sproshuye proces navchannya Jogo obchislyuvalna efektivnist yaka poyasnyuyetsya fiksovanoyu strukturoyu rezervuaru robit jogo vigidnim dlya zavdan sho potrebuyut intensivnoyi pam yati Zastosuvannya ohoplyuyut rizni sferi taki yak prognozuvannya chasovih ryadiv i rozpiznavannya movlennya demonstruyuchi svoyu efektivnist u obrobci poslidovnih danih Tipi taki yak merezha z vidlunnyam stanu Echo State Networks i ridkij skinchennij avtomat Liquid State Machines rozshiryuyut jogo zastosuvannya v riznih kontekstah Nezvazhayuchi na svoyi perevagi optimizaciya produktivnosti plasta dlya konkretnih zavdan zalishayetsya problemoyu Tim ne mensh rezervuarni obchislennya ye perspektivnoyu arhitekturoyu v RNM proponuyuchi obchislyuvalnu efektivnist i majsternist v obrobci timchasovoyi informaciyi Postijni doslidzhennya spryamovani na pidvishennya jogo mozhlivostej i rozshirennya jogo zastosuvannya v riznih sferah Cya paradigma yavlyaye soboyu znachnij progres v arhitekturi nejronnih merezh gotovij zaprovaditi innovaciyi v chasovij obrobci danih Merezha z vidlunnyam stanu Dokladnishe Merezha z vidlunnyam stanu Merezha z vidlunnyam stanu angl echo state network ESN ce rekurentna nejronna merezha z rozridzheno z yednanim vipadkovim prihovanim sharom Unikalnist ciyeyi merezhi polyagaye u tomu sho lishe vagi vihodnih nejroniv pidlyagayut zminam ta navchannyu todi yak struktura ta vnutrishnij stan rezervuaru zalishayutsya nezminnimi Taki merezhi ye dobrimi dlya vidtvorennya pevnih chasovih ryadiv Osnovni osoblivosti Rezervuar u merezhi z vidlunnyam stanu maye veliku kilkist vzayemopov yazanih vuzliv sho formuyut rozridzhenij prihovanij shar Lishe vihidni vagi piddayutsya trenuvannyu sho sproshuye proces navchannya ta zmenshuye obchislyuvalnu skladnist Merezhi z vidlunnyam stanu vidomi svoyeyu zdatnistyu uspishno vidtvoryuvati skladni chasovi ryadi ta vikoristovuyutsya u zavdannyah prognozuvannya ta modelyuvannya poslidovnih danih Ridkij skinchennij avtomat Variant dlya en vidomij yak ridki skinchenni avtomati Cya modifikaciya merezhi dozvolyaye zdijsnyuvati bilsh tochni ta gnuchki prognozi v obrobci poslidovnih danih Nejronnij stiskach istoriyi Problemu znikannya gradiyentu avtomatichnogo diferenciyuvannya ta zvorotnogo poshirennya v nejronnih merezhah bulo chastkovo podolano 1992 roku rannoyu porodzhuvalnoyu modellyu nazvanoyu nejronnim stiskachem istoriyi realizovanoyu yak nekerovana stopka rekurentnih nejronnih merezh RNM RNM na vhodovomu rivni navchayetsya peredbachuvati svij nastupnij vhid z istoriyi poperednih vhodiv Lishe neperedbachuvani vhodi pevnoyi RNM v cij iyerarhiyi stayut vhodami do RNM nastupnogo vishogo rivnya yaka vidtak pereobchislyuye svij vnutrishnij stan lishe zridka Kozhna RNM vishogo rivnya vidtak navchayetsya stisnenogo predstavlennya informaciyi v nizhchij RNM Ce zdijsnyuyetsya takim chinom sho vhidnu poslidovnist mozhe buti tochno vidtvoreno z predstavlennya ciyeyi poslidovnosti na najvishomu rivni Cya sistema diyevo minimizuye dovzhinu opisu abo vid yemnij logarifm imovirnosti danih Yaksho v poslidovnosti vhidnih danih ye bagato peredbachuvanosti yaka piddayetsya navchannyu to RNM najvishogo rivnya mozhe vikoristovuvati kerovane navchannya shobi legko klasifikuvati navit gliboki poslidovnosti z duzhe trivalimi chasovimi intervalami mizh vazhlivimi podiyami 1993 roku taka sistema vzhe rozv yazala zadachu duzhe glibokogo navchannya angl Very Deep Learning yaka vimagaye ponad 1 000 poslidovnih shariv v rozgornutij u chasi RNM Takozh mozhlivo peregnati vsyu cyu iyerarhiyu RNM v lishe dvi RNM sho nazivayut svidomim fragmentatorom angl conscious chunker vishij riven ta pidsvidomim avtomatizatorom angl subconscious automatizer nizhchij riven Shojno fragmentator navchivsya peredbachuvati ta stiskati vhodi yaki ye vse she ne peredbachuvanimi avtomatizatorom to v nastupnij fazi navchannya mozhna navantazhiti avtomatizator peredbachuvannyam abo imituvannyam cherez osoblivi dodatkovi vuzli prihovanih vuzliv povilnishe zminyuvanogo fragmentatora Ce polegshuye avtomatizatorovi navchannya dorechnih ridko zminyuvanih spogadiv protyagom duzhe trivalih promizhkiv chasu Ce svoyeyu chergoyu dopomagaye avtomatizatorovi robiti bagato z jogo kolis neperedbachuvanih vhodiv peredbachuvanimi takim chinom sho fragmentator mozhe zosereditisya na reshti vse she neperedbachuvanih podij shobi stiskati dani she silnishe Dovga korotkochasna pam yat Dokladnishe Dovga korotkochasna pam yat Chislenni doslidniki nini vikoristovuyut RNM glibokogo navchannya yaku nazivayut merezheyu dovgoyi korotkochasnoyi pam yati DKChP angl long short term memory LSTM opublikovanu en ta Shmidguberom 1997 roku Ce sistema glibokogo navchannya yaka na vidminu vid tradicijnih RNM ne maye problemi znikannya gradiyentu porivnyajte v rozdili algoritmiv trenuvannya nizhche DKChP v normi ye dopovnenoyu rekurentnimi ventilyami yaki nazivayut zabuvalnimi angl forget gates RNM DKChP zapobigayut znikannyu ta vibuhannyu zvorotno poshiryuvanih pohibok Natomist pohibki mozhut plinuti v zvorotnomu napryamku kriz neobmezhene chislo virtualnih shariv rozgornutoyi v prostori RNM DKChP Tobto DKChP mozhe vchitisya zavdan duzhe glibokogo navchannya angl Very Deep Learning yaki vimagayut spogadiv pro podiyi sho trapilisya tisyachi abo navit miljoni taktiv tomu Mozhlivo rozvivati DKChP podibni problemno oriyentovani topologiyi DKChP pracyuye navit za trivalih zatrimok i mozhe obroblyati signali sho mayut sumish nizko ta visokochastotnih skladovih Nini bagato zastosunkiv vikoristovuyut stopki RNM DKChP i trenuyut yih nejromerezhevoyu chasovoyu klasifikaciyeyu NChK angl Connectionist Temporal Classification CTC dlya znahodzhennya takoyi vagovoyi matrici RNM yaka maksimizuye jmovirnist poslidovnostej mitok u trenuvalnomu nabori dlya zadanih vidpovidnih vhidnih poslidovnostej NChK dosyagaye yak virivnyuvannya tak i rozpiznavannya Blizko 2007 roku DKChP pochali revolyuciyuvati rozpiznavannya movlennya perevershuyuchi tradicijni modeli v deyakih movlennyevih zastosuvannyah 2009 roku DKChP trenovana NChK stala pershoyu RNM yaka peremogla v zmagannyah iz rozpiznavannya obraziv koli vona vigrala kilka zmagan iz neperervnogo rukopisnogo rozpiznavannya 2014 roku kitajskij poshukovij gigant Baidu zastosuvav RNM trenovani NChK shobi perevershiti etalon rozpiznavannya movlennya Switchboard Hub5 00 bez zastosuvannya zhodnih tradicijnih metodiv obrobki movlennya DKChP takozh polipshila veliko slovnikove rozpiznavannya movlennya sintez movlennya z tekstu takozh i dlya Google Android i foto realistichni golovi sho rozmovlyayut 2015 roku v rozpiznavanni movlennya Google yak povidomlyayetsya stavsya rizkij 49 vidsotkovij dzherelo stribok produktivnosti zavdyaki NChK trenovanij DKChP yaka teper dostupna cherez Google Voice Search vsim koristuvacham smartfoniv DKChP takozh stala duzhe populyarnoyu v galuzi obrobki prirodnoyi movi Na vidminu vid poperednih modelej na osnovi PMM ta podibnih ponyat DKChP mozhe vchitisya rozpiznavati en DKChP polipshila mashinnij pereklad modelyuvannya mov ta bagatomovnu obrobku mov DKChP u poyednanni zi zgortkovimi nejronnimi merezhami ZNM takozh polipshila avtomatichnij opis zobrazhen i bezlich inshih zastosuvan Ventilnij rekurentnij vuzol Dokladnishe Ventilnij rekurentnij vuzol Ventilnij rekurentnij vuzol angl gated recurrent unit ye odniyeyu z rekurentnih nejronnih merezh predstavlenih 2014 roku Dvonapravlena RNM Dokladnishe Dvonapravleni rekurentni nejronni merezhi Vinajdena Shusterom ta Palivalom 1997 roku dvonapravlena RNM angl bi directional RNN abo DRNM angl BRNN vikoristovuye skinchennu poslidovnist shobi peredbachuvati abo mititi kozhen element ciyeyi poslidovnosti na osnovi yak minulogo tak i majbutnogo kontekstu cogo elementu Ce zdijsnyuyetsya shlyahom z yednannya vihodiv dvoh RNM odna z yakih obroblyaye poslidovnist zliva napravo a insha sprava nalivo Poyednani vihodi ye peredbachennyami zadanih uchitelem cilovih signaliv Cya metodika viyavilasya osoblivo korisnoyu pri poyednanni z RNM DKChP RNM neperervnogo chasu Rekurentna nejronna merezha neperervnogo chasu RNMNCh angl continuous time recurrent neural network CTRNN ce model dinamichnih sistem biologichnih nejronnih merezh Dlya modelyuvannya vpliviv na nejron vhodovogo lancyuzhka aktivacij RNMNCh zastosovuye sistemu zvichajnih diferencialnih rivnyan Dlya nejronu i displaystyle i v merezhi z potencialom diyi y i displaystyle y i temp zmini zbudzhennya zadayetsya yak t i y i y i j 1 n w j i s y j 8 j I i t displaystyle tau i dot y i y i sum j 1 n w ji sigma y j Theta j I i t de t i displaystyle tau i chasova stala postsinaptichnogo vuzla y i displaystyle y i zbudzhennya postsinaptichnogo vuzla y i displaystyle dot y i temp zmini zbudzhennya postsinaptichnogo vuzla w j i displaystyle w ji vaga z yednannya vid pre do postsinaptichnogo vuzla s x displaystyle sigma x sigmoyida x displaystyle x napriklad s x 1 1 e x displaystyle sigma x 1 1 e x y j displaystyle y j zbudzhennya presinaptichnogo vuzla 8 j displaystyle Theta j uperedzhennya presinaptichnogo vuzla I i t displaystyle I i t vhid yaksho ye do vuzla RNMNCh chasto zastosovuvali v galuzi en de yih vikoristovuvali shobi bratisya za napriklad bachennya vzayemodiyu ta minimalno piznavalnu povedinku Zauvazhte sho za teoremoyu vidlikiv Shennona rekurentni nejronni merezhi diskretnogo chasu mozhna rozglyadati yak rekurentni nejronni merezhi neperervnogo chasu v yakih diferencialne rivnyannya bulo peretvoreno na rivnoznachne rizniceve rivnyannya pislya togo yak funkciyi zbudzhennya postsinaptichnih vuzliv y i t displaystyle y i t bulo propusheno cherez nizkochastotnij filtr pered diskretizaciyeyu Iyerarhichna RNM Isnuye bagato prikladiv iyerarhichnih RNM angl hierarchical RNN chiyi elementi z yednano riznimi sposobami dlya rozkladu iyerarhichnoyi povedinki na korisni pidprogrami Rekurentnij bagatosharovij perceptron Yak pravilo rekurentnij bagatosharovij perceptron RBShP angl Recurrent Multi Layer Perceptron RMLP skladayetsya z ryadu kaskadovanih pidmerezh kozhna z yakih skladayetsya z dekilkoh shariv vuzliv Kozhna z cih pidmerezh ye merezheyu pryamogo poshirennya povnistyu krim ostannogo sharu yakij mozhe mati zvorotni zv yazki vseredini sebe Kozhna z cih pidmerezh pid yednuyetsya lishe zv yazkami pryamogo poshirennya RNM drugogo poryadku RNM drugogo poryadku angl second order RNN vikoristovuyut vagi vishih poryadkiv w i j k displaystyle w ijk zamist standartnih vagiv w i j displaystyle w ij a vhodi ta stani mozhut buti dobutkom Ce umozhlivlyuye pryame vidobrazhennya na skinchennij avtomat yak u trenuvanni stijkosti tak i v predstavlenni Dovga korotkochasna pam yat ye prikladom cogo krim togo sho vona ne maye takih formalnih vidobrazhen ta dovedennya stijkosti Model rekurentnoyi nejronnoyi merezhi kilkoh masshtabiv chasu Model rekurentnoyi nejronnoyi merezhi kilkoh masshtabiv chasu angl multiple timescales recurrent neural network MTRNN ye mozhlivoyu obchislyuvalnoyu modellyu na nejronnij osnovi yaka do deyakoyi miri imituye diyalnist golovnogo mozku Vona maye zdatnist imituvati funkcijnu iyerarhiyu golovnogo mozku cherez samoorganizaciyu yaka zalezhit ne lishe vid prostorovih zv yazkiv mizh nejronami a j vid okremih tipiv nejronnoyi aktivnosti kozhnogo z okremimi chasovimi vlastivostyami Za takih riznih nejronnih aktivnostej neperervni poslidovnosti bud yakoyi mnozhini povedinki segmentuyutsya na pridatni do povtornogo vikoristannya primitivi yaki svoyeyu chergoyu gnuchko vbudovuyutsya do riznomanitnih poslidovnostej povedinki Biologichne pidtverdzhennya takogo tipu iyerarhiyi obgovoryuvalosya v teoriyi pam yati peredbachuvannya funkciyuvannya mozku en u jogo knizi Pro intelekt Poslidovni kaskadni merezhi Pollaka angl Pollack s sequential cascaded networks Nejronni mashini Tyuringa Dokladnishe Nejronna mashina Tyuringa Nejronni mashini Tyuringa NMT angl Neural Turing machine NTM ce metod rozshirennya mozhlivostej rekurentnih nejronnih merezh shlyahom z yednannya yih iz zovnishnimi resursami pam yati z yakimi voni mozhut vzayemodiyati za dopomogoyu Taka ob yednana sistema analogichna mashini Tyuringa abo arhitekturi fon Nejmana ale ye diferencijovnoyu z krayu v kraj sho dozvolyaye yij produktivno trenuvatisya za dopomogoyu gradiyentnogo spusku Nejromerezhevi magazinni avtomati Nejromerezhevi magazinni avtomati angl Neural network pushdown automata NNPDA analogichni NMT ale strichki zaminyuyutsya analogovimi stekami yaki ye diferencijovnimi i trenuyutsya dlya keruvannya Takim chinom voni podibni za skladnistyu do rozpiznavachiv kontekstno vilnih gramatik Dvospryamovana asociativna pam yat Dokladnishe Dvospryamovana asociativna pam yat Predstavleni vpershe Bartom Kosko merezhi dvospryamovanoyi asociativnoyi pam yati DAP angl bidirectional associative memory BAM zberigayut asociativni dani yak vektor Dvospryamovanist pohodit vid peredavannya informaciyi matriceyu ta yiyi transpoziciyeyu Yak pravilo dlya dvijkovogo koduvannya par asociacij viddayut perevagu en Neshodavno stohastichni modeli DAP z markovskim krokom bulo optimizovano dlya vishoyi stijkosti merezhi ta vidpovidnosti dlya realnih zastosuvan TrenuvannyaGradiyentnij spusk Shobi minimizuvati zagalnu pohibku mozhe zastosovuvatisya gradiyentnij spusk dlya zmini kozhnoyi vagi proporcijno pohidnij pohibki po vidnoshennyu do ciyeyi vagi za umovi sho nelinijni funkciyi aktivaciyi ye diferencijovnimi Dlya zdijsnennya cogo v 1980 h i na pochatku 1990 h rokiv bulo rozrobleno rizni metodi en en Toni Robinsonom Yurgenom Shmidguberom en inshi movi ta inshimi Standartnij metod nazivayetsya zvorotne poshirennya v chasi angl backpropagation through time abo ZPCh angl BPTT i ye uzagalnennyam zvorotnogo poshirennya dlya merezh pryamogo poshirennya i yak i toj metod ye zrazkom avtomatichnogo diferenciyuvannya v rezhimi zvorotnogo nakopichennya abo principu minimumu Pontryagina Obchislyuvalno bilsh vitratnij interaktivnij variant nazivayetsya realnochasove rekurentne navchannya angl Real Time Recurrent Learning abo RChRN angl RTRL i ye zrazkom avtomatichnogo diferenciyuvannya v rezhimi poslidovnogo nakopichennya zi skladenimi vektorami tangensiv Na vidminu vid ZPCh cej algoritm ye lokalnim v chasi ale ne lokalnim u prostori V comu konteksti lokalnij u prostori oznachaye sho vektor vag vuzla mozhe buti utochneno lishe iz zastosuvannyam informaciyi sho zberigayetsya v z yednanih vuzlah ta samomu vuzli tak sho skladnist utochnennya odnogo vuzla ye linijnoyu po vidnoshennyu do rozmirnosti vektoru vag Lokalnij v chasi oznachaye sho utochnennya vidbuvayutsya neperervno interaktivno i zalezhat lishe vid najneshodavnishogo taktu a ne vid dekilkoh taktiv u mezhah zadanogo obriyu chasu yak u ZPCh Biologichni nejronni merezhi vidayutsya lokalnimi yak u chasi tak i v prostori Nedolikom RNRCh ye te sho dlya rekursivnogo obchislennya chastkovih pohidnih vid maye chasovu skladnist O kilkist prihovanih kilkist vag na takt dlya obchislennya matric Yakobi todi yak ZPCh zajmaye lishe O kilkist vag na takt cinoyu prote zberigannya vsih pryamih aktivacij v mezhah zadanogo obriyu chasu Isnuye takozh interaktivnij gibrid ZPCh i RNRCh z promizhnoyu skladnistyu i ye varianti dlya neperervnogo chasu Golovnoyu problemoyu gradiyentnogo spusku dlya standartnih arhitektur RNM ye te sho gradiyenti pohibki znikayut eksponencijno shvidko z rozmirom chasovoyi zatrimki mizh vazhlivimi podiyami Yak sprobu podolannya cih problem bulo zaproponovano arhitekturu dovgoyi korotkochasnoyi pam yati razom z gibridnim metodom navchannya ZPCh RNRCh Krim togo interaktivnij algoritm sho nazivayetsya prichinnim rekursivnim zvorotnim poshirennyam PRZP angl causal recursive backpropagation CRBP realizuye ta poyednuye razom paradigmi ZPCh ta RNRCh dlya lokalnoyi rekurentnoyi merezhi Vin pracyuye z najzagalnishimi lokalno rekurentnimi merezhami Algoritm PRZP mozhe minimizuvati globalnu pohibku cej fakt prizvodit do polipshenoyi stijkosti algoritmu zabezpechuyuchi ob yednavchij poglyad na metodiki gradiyentnih obchislen dlya rekurentnih merezh iz lokalnim zvorotnim zv yazkom Cikavij pidhid do obchislennya gradiyentnoyi informaciyi v RNM dovilnih arhitektur sho zaproponuvali Van ta Bufe gruntuyetsya na diagramnomu vivedenni grafiv plinu signalu dlya otrimannya paketnogo algoritmu ZPCh todi yak Kampoluchchi Unchini ta Piacca zaproponuvali jogo shvidku interaktivnu versiyu na osnovi teoremi Li dlya obchislennya chutlivosti merezh Metodi globalnoyi optimizaciyi Trenuvannya vag u nejronnij merezhi mozhlivo modelyuvati yak nelinijnu zadachu globalnoyi optimizaciyi Cilovu funkciyu dlya ocinki dopasovanosti abo pohibki pevnogo vagovogo vektora mozhe buti sformovano takim chinom Spershu vagi v merezhi vstanovlyuyutsya vidpovidno do cogo vagovogo vektora Dali merezha ocinyuyetsya za trenuvalnoyu poslidovnistyu Yak pravilo dlya predstavlennya pohibki potochnogo vagovogo vektora vikoristovuyut sumu kvadrativ riznic mizh peredbachennyami ta cilovimi znachennyami vkazanimi v trenuvalnij poslidovnosti Potim dlya minimizaciyi ciyeyi cilovoyi funkciyi mozhe buti zastosovano dovilni metodiki globalnoyi optimizaciyi Najuzhivanishim metodom globalnoyi optimizaciyi dlya trenuvannya RNM ye genetichni algoritmi osoblivo v nestrukturovanih merezhah Spochatku genetichnij algoritm koduyetsya vagami nejronnoyi merezhi v napered viznachenomu poryadku koli odin gen u hromosomi predstavlyaye odne zvazhene z yednannya i tak dali vsya merezha predstavlyayetsya yedinoyu hromosomoyu Funkciya dopasovanosti obchislyuyetsya nastupnim chinom 1 kozhna vaga zakodovana v hromosomi priznachayetsya vidpovidnomu zvazhenomu z yednannyu merezhi 2 potim trenuvalnij nabir zrazkiv predstavlyayetsya merezhi yaka poshiryuye vhidni signali dali 3 do funkciyi dopasovanosti povertayetsya serednokvadratichna pohibka 4 cya funkciya potim vede proces genetichnogo vidboru Populyaciyu skladayut bagato hromosom takim chinom bagato riznih nejronnih merezh evolyuciyuyut poki ne bude dosyagnuto kriteriyu zupinki Poshirenoyu shemoyu zupinki ye 1 koli nejronna merezha zasvoyila pevnij vidsotok trenuvalnih danih abo 2 koli dosyagnuto minimalnogo znachennya serednokvadratichnoyi pohibki abo 3 koli bulo dosyagnuto maksimalnogo chisla trenuvalnih pokolin Kriterij zupinki ocinyuyetsya funkciyeyu dopasovanosti pri otrimanni neyu obernenogo znachennya serednokvadratichnoyi pohibki z kozhnoyi z nejronnih merezh pid chas trenuvannya Otzhe metoyu genetichnogo algoritmu ye maksimizuvati funkciyu dopasovanosti znizivshi takim chinom serednokvadratichnu pohibku Dlya poshuku dobrogo naboru vag mozhut zastosovuvatisya j inshi metodiki globalnoyi ta abo evolyucijnoyi optimizaciyi taki yak imitaciya vidpalu ta metod royu chastok Pov yazani galuzi ta modeliRNM mozhut povoditisya haotichno V takih vipadkah dlya analizu mozhna vikoristovuvati teoriyu dinamichnih sistem Rekurentni nejronni merezhi naspravdi ye rekursivnimi nejronnimi merezhami z pevnoyu strukturoyu takoyu yak v linijnogo lancyuzhka V toj chas yak rekursivni nejronni merezhi pracyuyut na bud yakij iyerarhichnij strukturi poyednuyuchi dochirni predstavlennya v batkivski rekurentni nejronni merezhi diyut na linijnij poslidovnosti chasu poyednuyuchi poperednij takt i prihovane predstavlennya v predstavlennya potochnogo taktu Rekurentni nejronni merezhi zokrema mozhna predstavlyati yak nelinijni versiyi filtriv zi skinchennoyu ta en a takozh yak nelinijnu avtoregresijnu ekzogennu model angl nonlinear autoregressive exogenous model NARX Poshireni biblioteki RNM en Caffe Stvorena Centrom bachennya ta navchannya Berkli angl Berkeley Vision and Learning Center BVLC Pidtrimuye yak CP tak i GP Rozroblena movoyu C maye obgortki dlya Python ta MATLAB Deeplearning4j Gliboke navchannya v Java ta Scala na Spark z pidtrimkoyu bagatoh GP Biblioteka glibokogo navchannya 30 bereznya 2016 u Wayback Machine zagalnogo priznachennya dlya produktovogo steka JVM sho pracyuye na rushiyi naukovih obchislen C 11 chervnya 2018 u Wayback Machine Dozvolyaye stvoryuvati specialni shari Integruyetsya z Hadoop ta Kafka Keras Microsoft Cognitive Toolkit TensorFlow Theano podibna biblioteka z licenziyeyu Apache 2 0 z pidtrimkoyu CP GP ta zapatentovanih kompaniyeyu Google TP mobilnih Theano Etalonna biblioteka glibokogo navchannya dlya Python z PPI znachnoyu miroyu sumisnim z populyarnoyu bibliotekoyu NumPy Dozvolyaye koristuvacham pisati simvolichni matematichni virazi potim avtomatichno porodzhuye yihni pohidni vberigayuchi koristuvacha vid obov yazku koduvati gradiyenti abo zvorotne poshirennya Ci simvolichni virazi avtomatichno kompilyuyutsya v CUDA dlya otrimannya shvidkoyi realizaciyi na GP Torch www torch ch 9 lipnya 2016 u Wayback Machine Naukovij obchislyuvalnij karkas iz shirokoyu pidtrimkoyu algoritmiv mashinnogo navchannya napisanij movami C ta lua Golovnim avtorom ye Ronan Kollobert narazi zastosovuyetsya u Facebook AI Research ta Twitter Dodatkova literaturaKnigi Tyagi Amit Kumar Abraham Ajith red 2023 Recurrent neural networks concepts and applications 1st edition Boca Raton London New York CRC Press Taylor amp Francis Group ISBN 978 1 032 08164 9 Salem Fathi M 2022 Recurrent Neural Networks From Simple to Gated Architectures angl Cham Springer International Publishing Springer Nature ISBN 978 3 030 89928 8 Statti Talaei Khoei Tala Ould Slimane Hadjar Kaabouch Naima 2023 11 Deep learning systematic review models challenges and research directions Neural Computing and Applications angl 35 31 doi 10 1007 s00521 023 08957 4 Orojo Oluwatamilore Tepper Jonathan McGinnity T M Mahmud Mufti 1 sichnya 2023 The Multi Recurrent Neural Network for State Of The Art Time Series Processing Procedia Computer Science 222 doi 10 1016 j procs 2023 08 187 A Review of Recurrent Neural Network Based Methods in Computational Physiology IEEE Journals amp Magazine doi 10 1109 tnnls 2022 3145365 PrimitkiA Graves M Liwicki S Fernandez R Bertolami H Bunke J Schmidhuber A Novel Connectionist System for Improved Unconstrained Handwriting Recognition IEEE Transactions on Pattern Analysis and Machine Intelligence vol 31 no 5 2009 angl H Sak and A W Senior and F Beaufays Long short term memory recurrent neural network architectures for large scale acoustic modeling Proc Interspeech pp338 342 Singapore Sept 201 angl Goller C Kuchler A Learning task dependent distributed representations by backpropagation through structure Neural Networks 1996 IEEE doi 10 1109 ICNN 1996 548916 angl en 1970 The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors Master s Thesis in Finnish Univ Helsinki 6 7 fin Griewank Andreas and Walther A Principles and Techniques of Algorithmic Differentiation Second Edition SIAM 2008 angl Socher Richard Lin Cliff Ng Andrew Y Manning Christopher D Parsing Natural Scenes and Natural Language with Recursive Neural Networks The 28th International Conference on Machine Learning ICML 2011 angl Socher Richard Perelygin Alex Y Wu Jean Chuang Jason D Manning Christopher Y Ng Andrew Potts Christopher PDF EMNLP 2013 Arhiv originalu PDF za 28 grudnya 2016 Procitovano 17 kvitnya 2017 angl Raul Rojas 1996 Neural networks a systematic introduction Springer s 336 ISBN 978 3 540 60505 8 angl Cruse Holk Neural Networks as Cybernetic Systems 20 zhovtnya 2016 u Wayback Machine 2nd and revised edition angl Elman Jeffrey L 1990 Finding Structure in Time Cognitive Science 14 2 179 211 doi 10 1016 0364 0213 90 90002 E angl Jordan Michael I 1986 Serial Order A Parallel Distributed Processing Approach angl Tanaka Gouhei Yamane Toshiyuki Heroux Jean Benoit Nakane Ryosho Kanazawa Naoki Takeda Seiji Numata Hidetoshi Nakano Daiju Hirose Akira 1 lipnya 2019 Recent advances in physical reservoir computing A review Neural Networks T 115 s 100 123 doi 10 1016 j neunet 2019 03 005 ISSN 0893 6080 Procitovano 15 grudnya 2023 Gauthier Daniel J Bollt Erik Griffith Aaron Barbosa Wendson A S 21 veresnya 2021 Next generation reservoir computing Nature Communications angl T 12 1 s 5564 doi 10 1038 s41467 021 25801 2 ISSN 2041 1723 PMC 8455577 PMID 34548491 Procitovano 15 grudnya 2023 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki z PMC z inshim formatom posilannya H Jaeger Harnessing nonlinearity Predicting chaotic systems and saving energy in wireless communication Science 304 78 80 2004 angl Ma Qianli Chen Weibiao Wei Jia Yu Zhiwen 1 veresnya 2014 Direct model of memory properties and the linear reservoir topologies in echo state networks Applied Soft Computing T 22 s 622 628 doi 10 1016 j asoc 2014 04 038 ISSN 1568 4946 Procitovano 15 grudnya 2023 Steiner Peter Jalalvand Azarakhsh Birkholz Peter 2023 12 Exploring unsupervised pre training for echo state networks Neural Computing and Applications angl T 35 34 s 24225 24242 doi 10 1007 s00521 023 08988 x ISSN 0941 0643 Procitovano 15 grudnya 2023 W Maass T Natschlager and H Markram A fresh look at real time computation in generic recurrent neural circuits Technical report Institute for Theoretical Computer Science TU Graz 2002 angl Deckers Lucas Tsang Ing Jyh Van Leekwijck Werner Latre Steven 2022 Extended liquid state machines for speech recognition Frontiers in Neuroscience T 16 doi 10 3389 fnins 2022 1023470 ISSN 1662 453X PMC 9651956 PMID 36389242 Procitovano 15 grudnya 2023 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki z PMC z inshim formatom posilannya Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Mosaic LSM A Liquid State Machine Approach for Multimodal Longitudinal Data Analysis IEEE Conference Publication IEEE Xplore ieeexplore ieee org doi 10 1109 ijcnn54540 2023 10191256 Procitovano 15 grudnya 2023 Real world Performance Estimation of Liquid State Machines for Spoken Digit Classification IEEE Conference Publication IEEE Xplore ieeexplore ieee org doi 10 1109 ijcnn54540 2023 10191451 Procitovano 15 grudnya 2023 Pan Wenxuan Zhao Feifei Zeng Yi Han Bing 7 zhovtnya 2023 Adaptive structure evolution and biologically plausible synaptic plasticity for recurrent spiking neural networks Scientific Reports angl T 13 1 s 16924 doi 10 1038 s41598 023 43488 x ISSN 2045 2322 PMC 10560283 PMID 37805632 Procitovano 15 grudnya 2023 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite news title Shablon Cite news cite news a Obslugovuvannya CS1 Storinki z PMC z inshim formatom posilannya en 1991 Untersuchungen zu dynamischen neuronalen Netzen 6 bereznya 2015 u Wayback Machine Diploma thesis Institut f Informatik Technische Univ Munich Advisor J Schmidhuber nim Jurgen Schmidhuber Learning complex extended sequences using the principle of history compression Neural Computation 4 2 234 242 Online nedostupne posilannya angl Jurgen Schmidhuber 2015 Deep Learning Scholarpedia 10 11 32832 Section on Unsupervised Pre Training of RNNs and FNNs 19 kvitnya 2016 u Wayback Machine angl Jurgen Schmidhuber 1993 Habilitation thesis TUM 1993 Page 150 ff demonstrates credit assignment across the equivalent of 1 200 layers in an unfolded RNN Online nedostupne posilannya angl en and Schmidhuber Jurgen Long Short Term Memory Neural Computation 9 8 1735 1780 1997 angl Felix Gers Nicholas Schraudolph and Jurgen Schmidhuber 2002 Learning precise timing with LSTM recurrent networks Journal of Machine Learning Research 3 115 143 angl Jurgen Schmidhuber 2015 Deep learning in neural networks An overview Neural Networks 61 2015 85 117 ArXiv 8 travnya 2017 u Wayback Machine angl Justin Bayer Daan Wierstra Julian Togelius and Jurgen Schmidhuber 2009 Evolving memory cell structures for sequence learning Proceedings of ICANN 2 pp 755 764 angl Santiago Fernandez Alex Graves and Jurgen Schmidhuber 2007 Sequence labelling in structured domains with hierarchical recurrent neural networks Proceedings of IJCAI angl Alex Graves Santiago Fernandez Faustino Gomez and Jurgen Schmidhuber 2006 Connectionist temporal classification Labelling unsegmented sequence data with recurrent neural nets Proceedings of ICML 06 pp 369 376 angl Santiago Fernandez Alex Graves and Jurgen Schmidhuber 2007 An application of recurrent neural networks to discriminative keyword spotting Proceedings of ICANN 2 pp 220 229 angl Graves Alex and Schmidhuber Jurgen Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks in Bengio Yoshua Schuurmans Dale Lafferty John Williams Chris K I and Culotta Aron eds Advances in Neural Information Processing Systems 22 NIPS 22 December 7th 10th 2009 Vancouver BC Neural Information Processing Systems NIPS Foundation 2009 pp 545 552 angl Awni Hannun Carl Case Jared Casper Bryan Catanzaro Greg Diamos Erich Elsen Ryan Prenger Sanjeev Satheesh Shubho Sengupta Adam Coates Andrew Ng 2014 Deep Speech Scaling up end to end speech recognition arXiv 1412 5567 21 grudnya 2016 u Wayback Machine angl Hasim Sak and Andrew Senior and Francoise Beaufays 2014 Long Short Term Memory recurrent neural network architectures for large scale acoustic modeling Proceedings of Interspeech 2014 angl Xiangang Li Xihong Wu 2015 Constructing Long Short Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition arXiv 1410 4281 26 veresnya 2017 u Wayback Machine angl Bo Fan Lijuan Wang Frank K Soong and Lei Xie 2015 Photo Real Talking Head with Deep Bidirectional LSTM In Proceedings of ICASSP 2015 angl Heiga Zen and Hasim Sak 2015 Unidirectional Long Short Term Memory Recurrent Neural Network with Recurrent Output Layer for Low Latency Speech Synthesis In Proceedings of ICASSP pp 4470 4474 angl Hasim Sak Andrew Senior Kanishka Rao Francoise Beaufays and Johan Schalkwyk September 2015 Google voice search faster and more accurate 9 bereznya 2016 u Wayback Machine angl Felix A Gers and Jurgen Schmidhuber LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages IEEE TNN 12 6 1333 1340 2001 angl Ilya Sutskever Oriol Vinyals and Quoc V Le 2014 Sequence to Sequence Learning with Neural Networks arXiv 29 kvitnya 2017 u Wayback Machine angl Rafal Jozefowicz Oriol Vinyals Mike Schuster Noam Shazeer Yonghui Wu 2016 Exploring the Limits of Language Modeling arXiv 6 chervnya 2017 u Wayback Machine angl Dan Gillick Cliff Brunk Oriol Vinyals Amarnag Subramanya 2015 Multilingual Language Processing From Bytes arXiv 26 lipnya 2017 u Wayback Machine angl Oriol Vinyals Alexander Toshev Samy Bengio and Dumitru Erhan 2015 Show and Tell A Neural Image Caption Generator arXiv 4 kvitnya 2017 u Wayback Machine angl Bidirectional recurrent neural networks IEEE Transactions on Signal Processing 45 2673 81 November 1997 angl A Graves and J Schmidhuber Framewise phoneme classification with bidirectional LSTM and other neural network architectures Neural Networks 18 602 610 2005 angl Harvey Inman Husbands P Cliff D 1994 Seeing the light Artificial evolution real vision Proceedings of the third international conference on Simulation of adaptive behavior from animals to animats 3 392 401 angl Quinn Matthew 2001 Evolving communication without dedicated communication channels Advances in Artificial Life Lecture Notes in Computer Science 2159 357 366 doi 10 1007 3 540 44811 X 38 ISBN 978 3 540 42567 0 angl Beer R D 1997 The dynamics of adaptive behavior A research program Robotics and Autonomous Systems 20 2 4 257 289 doi 10 1016 S0921 8890 96 00063 2 angl R W Paine J Tani How hierarchical control self organizes in artificial adaptive systems Adaptive Behavior 13 3 211 225 2005 angl Citeseerx ist psu edu Arhiv originalu za 28 grudnya 2013 Procitovano 3 sichnya 2014 angl C L Giles C B Miller D Chen H H Chen G Z Sun Y C Lee Learning and Extracting Finite State Automata with Second Order Recurrent Neural Networks 15 kvitnya 2021 u Wayback Machine Neural Computation 4 3 p 393 1992 angl C W Omlin C L Giles Constructing Deterministic Finite State Automata in Recurrent Neural Networks 18 kvitnya 2017 u Wayback Machine Journal of the ACM 45 6 937 972 1996 angl Y Yamashita J Tani Emergence of functional hierarchy in a multiple timescale neural network model a humanoid robot experiment PLoS Computational Biology 4 11 e1000220 211 225 2008 http journals plos org ploscompbiol article id 10 1371 journal pcbi 1000220 5 bereznya 2022 u Wayback Machine angl Alnajjar F Yamashita Y Tani J 2013 The Hierarchical and Functional Connectivity of Higher order Cognitive Mechanisms Neurorobotic Model to Investigate the Stability and Flexibility of Working Memory Frontiers in Neurorobotics 7 2 doi 10 3389 fnbot 2013 00002 PMID 3575058 angl Graves Alex Wayne Greg Danihelka Ivo 2014 PDF arXiv 1410 5401 Arhiv originalu PDF za 7 chervnya 2017 Procitovano 17 kvitnya 2017 angl Guo Zheng Sun C Lee Giles Hsing Hen Chen The Neural Network Pushdown Automaton Architecture Dynamics and Training Adaptive Processing of Sequences and Data Structures Lecture Notes in Computer Science Volume 1387 296 345 1998 angl Kosko B 1988 Bidirectional associative memories IEEE Transactions on Systems Man and Cybernetics 18 1 49 60 doi 10 1109 21 87054 angl Rakkiyappan R Chandrasekar A Lakshmanan S Park Ju H 2 sichnya 2015 Exponential stability for markovian jumping stochastic BAM neural networks with mode dependent probabilistic time varying delays and impulse control Complexity 20 3 39 65 doi 10 1002 cplx 21503 angl P J Werbos Generalization of backpropagation with application to a recurrent gas market model Neural Networks 1 1988 angl David E Rumelhart Geoffrey E Hinton Ronald J Williams Learning Internal Representations by Error Propagation angl A J Robinson and F Fallside The utility driven dynamic error propagation network Technical Report CUED F INFENG TR 1 Cambridge University Engineering Department 1987 angl R J Williams and D Zipser Gradient based learning algorithms for recurrent networks and their computational complexity In Back propagation Theory Architectures and Applications Hillsdale NJ Erlbaum 1994 angl J Schmidhuber A local learning algorithm for dynamic feedforward and recurrent networks Connection Science 1 4 403 412 1989 angl Neural and Adaptive Systems Fundamentals through Simulation J C Principe N R Euliano W C Lefebvre angl Ollivier Y and Tallec C and Charpiat G 2015 Training recurrent networks online without backtracking arXiv 6 lipnya 2017 u Wayback Machine angl J Schmidhuber A fixed size storage O n3 time complexity learning algorithm for fully recurrent continually running networks Neural Computation 4 2 243 248 1992 angl R J Williams Complexity of exact gradient computation algorithms for recurrent neural networks Technical Report Technical Report NU CCS 89 27 Boston Northeastern University College of Computer Science 1989 angl B A Pearlmutter Learning state space trajectories in recurrent neural networks Neural Computation 1 2 263 269 1989 angl en Y Bengio P Frasconi and J Schmidhuber Gradient flow in recurrent nets the difficulty of learning long term dependencies In S C Kremer and J F Kolen editors A Field Guide to Dynamical Recurrent Neural Networks IEEE Press 2001 angl P Campolucci A Uncini F Piazza B D Rao 1999 On Line Learning Algorithms for Locally Recurrent Neural Networks IEEE Transaction On Neural Networks 10 2 253 271 cherez http ieeexplore ieee org document 750549 angl E A Wan F Beaufays 1996 Diagrammatic derivation of gradient algorithms for neural networks Neural Computation 8 182 201 cherez http www mitpressjournals org doi abs 10 1162 neco 1996 8 1 182 journalCode neco WJ14jYWcGOw angl P Campolucci A Uncini F Piazza 2000 A Signal Flow Graph Approach to On line Gradient Calculation Neural Computation 12 1901 1927 cherez http www mitpressjournals org doi abs 10 1162 089976600300015196 journalCode neco WJ16EoWcGOw angl A Y Lee 1974 Signal Flow Graphs Computer Aided System Analysis and Sensitivity Calculations IEEE Transactions on Circuits and Systems 21 209 216 cherez http ieeexplore ieee org document 1083832 angl F J Gomez and R Miikkulainen Solving non Markovian control tasks with neuroevolution Proc IJCAI 99 Denver CO 1999 Morgan Kaufmann angl Arhiv originalu za 6 grudnya 2010 Procitovano 17 kvitnya 2017 angl F Gomez J Schmidhuber R Miikkulainen Accelerated Neural Evolution through Cooperatively Coevolved Synapses Journal of Machine Learning Research JMLR 9 937 965 2008 angl Hava T Siegelmann Bill G Horne C Lee Giles Computational capabilities of recurrent NARX neural networks IEEE Transactions on Systems Man and Cybernetics Part B 27 2 208 215 1997 angl Cade Metz 18 travnya 2016 Wired Arhiv originalu za 13 sichnya 2018 Procitovano 17 kvitnya 2017 angl Mandic Danilo P amp Chambers Jonathon A 2001 Recurrent Neural Networks for Prediction Learning Algorithms Architectures and Stability Wiley ISBN 0 471 49517 4 PosilannyaRNNSharp 4 serpnya 2017 u Wayback Machine CRF na osnovi rekurentnih nejronnih merezh C NET Recurrent Neural Networks 2 sichnya 2014 u Wayback Machine z ponad 60 pracyami z RNM vid grupi Yurgena Shmidgubera v en angl Realizaciya nejronnoyi merezhi Elmana 2 lyutogo 2017 u Wayback Machine dlya WEKA angl