До́вга короткоча́сна па́м'ять (ДКЧП, англ. long short-term memory, LSTM) — це архітектура рекурентних нейронних мереж (РНМ, штучна нейронна мережа), запропонована 1997 року [en] та Юргеном Шмідгубером. Як і більшість РНМ, мережа ДКЧП є універсальною в тому сенсі, що за достатньої кількості вузлів мережі вона може обчислювати будь-що, що може обчислювати звичайний комп'ютер, за умови, що вона має належну матрицю [en], що може розглядатися як її програма. На відміну від традиційних РНМ, мережа ДКЧП добре підходить для навчання з досвіду з метою класифікації, обробки або передбачення часових рядів в умовах, коли між важливими подіями існують часові затримки невідомої тривалості. Відносна нечутливість до довжини прогалин дає ДКЧП перевагу в численних застосуваннях над альтернативними РНМ, прихованими марковськими моделями та іншими методами навчання послідовностей. Серед інших успіхів, ДКЧП досягла найкращих з відомих результатів у стисненні тексту природною мовою,розпізнаванні несегментованого неперервного рукописного тексту, і 2009 року виграла змагання з розпізнавання рукописного тексту [en]. Мережі ДКЧП також застосовувалися до автоматичного розпізнавання мовлення, і були головною складовою мережі, яка 2003 року досягла рекордного 17.7-відсоткового рівня пофонемних помилок на класичному наборі даних природного мовлення [en]. Станом на 2016 рік основні технологічні компанії, включно з Google, Apple, Microsoft та Baidu, використовували мережі ДКЧП як основні складові нових продуктів.
Архітектура
Мережа ДКЧП є штучною нейронною мережею, яка містить вузли ДКЧП замість, або на додачу, до інших вузлів мережі. Вузол ДКЧП — це вузол рекурентної нейронної мережі, який виділяється запам'ятовуванням значень для довгих, або коротких проміжків часу. Ключем до цієї здатності є те, що він не використовує функції активації в межах своїх рекурентних складових. Таким чином, значення, що зберігається, не розплющується ітеративно з плином часу, і член градієнту або вини (англ. blame) не має схильності розмиватися, коли для його тренування застосовується зворотне поширення в часі.
Вузли ДКЧП часто втілюють у «блоках» (англ. blocks), які містять декілька вузлів ДКЧП. Така конструкція є типовою для «глибоких» багатошарових нейронних мереж, і сприяє реалізаціям на паралельному апаратному забезпеченні. В наведених нижче рівняннях кожна змінна курсивом у нижньому регістрі представляє вектор, що має розмір, який дорівнює числу вузлів ДКЧП у блоці.
Блоки ДКЧП містять три або чотири «вентилі» (англ. gates), які вони використовують для керування плином інформації до або з їхньої пам'яті. Ці вентилі реалізують із застосуванням логістичної функції для обчислення значень між 0 та 1. Для часткового дозволяння або заборони плину інформації до або з цієї пам'яті застосовується множення на це значення. Наприклад, «входовий вентиль» (англ. input gate) керує мірою, до якої нове значення входить до пам'яті. «Забувальний вентиль» (англ. forget gate) керує мірою, до якої значення залишається в пам'яті. А «виходовий вентиль» (англ. output gate) керує мірою, до якої значення в пам'яті використовується для обчислення активування виходу блоку. (В деяких втіленнях входовий та забувальний вентилі об'єднують в один. Ідея їхнього об'єднання полягає в тому, що час забувати настає тоді, коли з'являється нове значення, варте запам'ятовування.)
Єдині ваги, що є в блоці ДКЧП ( та ), використовуються для спрямовування дії вентилів. Ці ваги застосовуються між значеннями, які надходять до блоку (включно з входовим вектором та виходом з попереднього моменту часу ) та кожним із вентилів. Отже, блок ДКЧП визначає, яким чином підтримувати свою пам'ять як функцію від цих значень, і тренування ваг блока ДКЧП спричиняє його навчання такої функції, яка мінімізує втрати. Блоки ДКЧП зазвичай тренують за допомогою зворотного поширення в часі.
Традиційна ДКЧП
Традиційна ДКЧП із забувальними вузлами. і . позначає добуток Адамара (поелементний добуток).
Змінні
- : входовий вектор
- : виходовий вектор
- : вектор стану комірки
- , і : матриці та вектор параметрів (W від англ. weight, вага, U від англ. update?, уточнення, b від англ. bias?, упередження)
- , і : вектори вентилів
- : Вектор забувального вентиля. Вага пам'ятання старої інформації.
- : Вектор входового вентиля. Вага отримання нової інформації.
- : Вектор виходового вентиля. Кандидатність на вихід.
- : В оригіналі є сигмоїдною функцією.
- : В оригіналі є гіперболічним тангенсом.
- : В оригіналі є гіперболічним тангенсом, але праця з вічкових ДКЧП радить .
Вічкова ДКЧП
Вічкова ДКЧП із забувальними вентилями. не застосовується, натомість у більшості місць застосовується .
Згорткова ДКЧП
Згорткова ДКЧП. позначає оператор згортки.
Тренування
Для мінімізації загальної похибки ДКЧП на тренувальних послідовностях може застосовуватися ітеративний градієнтний спуск, такий як зворотне поширення в часі, для зміни кожного вагового коефіцієнту пропорційно до його похідної по відношенню до похибки. Основною проблемою з градієнтним спуском для стандартних РНМ є те, що градієнти похибок зникають експоненційно швидко з розміром часової затримки між важливими подіями, як це було вперше з'ясовано 1991 року. Проте у блоках ДКЧП, коли значення похибки зворотно поширюються з виходу, похибка виявляється в пастці в частині пам'яті блоку. Це називають «каруселлю похибки» (англ. "error carousel"), яка постійно подає похибку назад до кожного з вентилів, поки вони не стають натренованими відсікати це значення. Таким чином, регулярне зворотне поширення є дієвим при тренуванні блоку ДКЧП запам'ятовувати значення для дуже довгих тривалостей.
ДКЧП може також тренуватися поєднанням штучної еволюції для вагових коефіцієнтів прихованих вузлів, і псевдообернення або методу опорних векторів для вагових коефіцієнтів виходових вузлів. У застосуваннях навчання з підкріпленням ДКЧП може тренуватися (методами градієнту стратегії), еволюційними стратегіями або генетичними алгоритмами.
Застосування
Застосування ДКЧП включають:
- [en]
- Прогнозування часових рядів
- Розпізнавання мовлення
- Навчання ритму
- Написання музики
- Навчання граматики
- Розпізнавання рукописного тексту
- Розпізнавання людських дій
- Виявлення гомології білків
Див. також
Примітки
- Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink; Jürgen Schmidhuber (2015). LSTM: A Search Space Odyssey. arXiv:1503.04069. (англ.)
- [en]; Jürgen Schmidhuber (1997). . [en]. 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. Архів оригіналу за 8 серпня 2019. Процитовано 15 квітня 2017. (англ.)
- (амер.). Архів оригіналу за 9 травня 2017. Процитовано 13 січня 2017. (англ.)
- A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009. (англ.)
- Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). Speech Recognition with Deep Recurrent Neural Networks. Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on: 6645—6649. (англ.)
- . WIRED (амер.). Архів оригіналу за 24 березня 2017. Процитовано 16 червня 2016. (англ.)
- . people.idsia.ch. Архів оригіналу за 5 травня 2021. Процитовано 16 червня 2016. (англ.)
- Felix A. Gers; Jürgen Schmidhuber; Fred Cummins (2000). . [en]. 12 (10): 2451—2471. doi:10.1162/089976600300015015. Архів оригіналу за 7 квітня 2019. Процитовано 15 квітня 2017. (англ.)
- Gers, F. A.; Schmidhuber, J. (2001). (PDF). IEEE Transactions on Neural Networks. 12 (6): 1333—1340. doi:10.1109/72.963769. Архів оригіналу (PDF) за 10 липня 2020. Процитовано 15 квітня 2017. (англ.)
- Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). (PDF). Journal of Machine Learning Research. 3: 115—143. Архів оригіналу (PDF) за 28 липня 2017. Процитовано 15 квітня 2017. (англ.)
- Xingjian Shi; Zhourong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo (2015). . Proceedings of the 28th International Conference on Neural Information Processing Systems: 802—810. Архів оригіналу за 9 листопада 2016. Процитовано 15 квітня 2017. (англ.)
- S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991. (нім.)
- S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001. (англ.)
- Schmidhuber, J.; Wierstra, D.; Gagliolo, M.; Gomez, F. (2007). Training Recurrent Networks by Evolino. Neural Computation. 19 (3): 757—779. doi:10.1162/neco.2007.19.3.757. (англ.)
- H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll, and J. Schmidhuber. A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural Networks. Advanced Robotics, 22/13–14, pp. 1521–1537, 2008. (англ.)
- J. Schmidhuber and D. Wierstra and F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853–858, 2005. (англ.)
- Graves, A.; Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks. 18 (5–6): 602—610. doi:10.1016/j.neunet.2005.06.042. (англ.)
- S. Fernandez, A. Graves, J. Schmidhuber. An application of recurrent neural networks to discriminative keyword spotting. Intl. Conf. on Artificial Neural Networks ICANN'07, 2007. (англ.)
- D. Eck and J. Schmidhuber. Learning The Long-Term Structure of the Blues. In J. Dorronsoro, ed., Proceedings of Int. Conf. on Artificial Neural Networks ICANN'02, Madrid, pages 284–289, Springer, Berlin, 2002. (англ.)
- Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. (2002). Learning nonregular languages: A comparison of simple recurrent networks and LSTM. Neural Computation. 14 (9): 2039—2041. doi:10.1162/089976602320263980. (англ.)
- Perez-Ortiz, J. A.; Gers, F. A.; Eck, D.; Schmidhuber, J. (2003). Kalman filters improve LSTM network performance in problems unsolvable by traditional recurrent nets. Neural Networks. 16 (2): 241—250. doi:10.1016/s0893-6080(02)00219-8. (англ.)
- A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing Systems 22, NIPS'22, pp 545–552, Vancouver, MIT Press, 2009. (англ.)
- A. Graves, S. Fernandez,M. Liwicki, H. Bunke, J. Schmidhuber. Unconstrained online handwriting recognition with recurrent neural networks. Advances in Neural Information Processing Systems 21, NIPS'21, pp 577–584, 2008, MIT Press, Cambridge, MA, 2008. (англ.)
- M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sequential Deep Learning for Human Action Recognition. 2nd International Workshop on Human Behavior Understanding (HBU), A.A. Salah, B. Lepri ed. Amsterdam, Netherlands. pp. 29–39. Lecture Notes in Computer Science 7065. Springer. 2011 (англ.)
- Hochreiter, S.; Heusel, M.; Obermayer, K. (2007). Fast model-based protein homology detection without alignment. Bioinformatics. 23 (14): 1728—1736. doi:10.1093/bioinformatics/btm247. PMID 17488755. (англ.)
Посилання
- Рекурентні нейронні мережі [ 2 січня 2014 у Wayback Machine.] із понад 30 працями від групи Юргена Шмідгубера в [en](англ.)
- Докторська дисертація [ 11 липня 2019 у Wayback Machine.] Жера про мережі ДКЧП. (фр.)
- з двома главами, присвяченими поясненню рекурентних нейронних мереж, особливо ДКЧП. (англ.)
- Праця [ 23 квітня 2013 у Wayback Machine.] про високопродуктивне розширення ДКЧП, яке було спрощено до єдиного типу вузла, і яке може тренувати довільні архітектури. (англ.)
- Підручник [Архівовано 3 січня 2015 у Archive.is]: Як реалізувати ДКЧП в Python за допомогою Theano. (англ.)
- Karpathy, Andrej (2015). . Архів оригіналу за 26 березня 2017. Процитовано 31 березня 2017. (англ.)
- Chen, Edwin (2017). . Архів оригіналу за 6 квітня 2019. Процитовано 1 квітня 2019. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Do vga korotkocha sna pa m yat DKChP angl long short term memory LSTM ce arhitektura rekurentnih nejronnih merezh RNM shtuchna nejronna merezha zaproponovana 1997 roku en ta Yurgenom Shmidguberom Yak i bilshist RNM merezha DKChP ye universalnoyu v tomu sensi sho za dostatnoyi kilkosti vuzliv merezhi vona mozhe obchislyuvati bud sho sho mozhe obchislyuvati zvichajnij komp yuter za umovi sho vona maye nalezhnu matricyu en sho mozhe rozglyadatisya yak yiyi programa Na vidminu vid tradicijnih RNM merezha DKChP dobre pidhodit dlya navchannya z dosvidu z metoyu klasifikaciyi obrobki abo peredbachennya chasovih ryadiv v umovah koli mizh vazhlivimi podiyami isnuyut chasovi zatrimki nevidomoyi trivalosti Vidnosna nechutlivist do dovzhini progalin daye DKChP perevagu v chislennih zastosuvannyah nad alternativnimi RNM prihovanimi markovskimi modelyami ta inshimi metodami navchannya poslidovnostej Sered inshih uspihiv DKChP dosyagla najkrashih z vidomih rezultativ u stisnenni tekstu prirodnoyu movoyu rozpiznavanni nesegmentovanogo neperervnogo rukopisnogo tekstu i 2009 roku vigrala zmagannya z rozpiznavannya rukopisnogo tekstu en Merezhi DKChP takozh zastosovuvalisya do avtomatichnogo rozpiznavannya movlennya i buli golovnoyu skladovoyu merezhi yaka 2003 roku dosyagla rekordnogo 17 7 vidsotkovogo rivnya pofonemnih pomilok na klasichnomu nabori danih prirodnogo movlennya en Stanom na 2016 rik osnovni tehnologichni kompaniyi vklyuchno z Google Apple Microsoft ta Baidu vikoristovuvali merezhi DKChP yak osnovni skladovi novih produktiv Blok vichkovoyi DKChP z vhodovim vihodovim ta zabuvalnim ventilyami Vihodovi strilki z vuzla ct naspravdi poznachayut vihodovi strilki z ct 1 krim yedinoyi strilki zliva napravo Isnuye takozh i bagato inshih vidiv DKChP ArhitekturaMerezha DKChP ye shtuchnoyu nejronnoyu merezheyu yaka mistit vuzli DKChP zamist abo na dodachu do inshih vuzliv merezhi Vuzol DKChP ce vuzol rekurentnoyi nejronnoyi merezhi yakij vidilyayetsya zapam yatovuvannyam znachen dlya dovgih abo korotkih promizhkiv chasu Klyuchem do ciyeyi zdatnosti ye te sho vin ne vikoristovuye funkciyi aktivaciyi v mezhah svoyih rekurentnih skladovih Takim chinom znachennya sho zberigayetsya ne rozplyushuyetsya iterativno z plinom chasu i chlen gradiyentu abo vini angl blame ne maye shilnosti rozmivatisya koli dlya jogo trenuvannya zastosovuyetsya zvorotne poshirennya v chasi Vuzli DKChP chasto vtilyuyut u blokah angl blocks yaki mistyat dekilka vuzliv DKChP Taka konstrukciya ye tipovoyu dlya glibokih bagatosharovih nejronnih merezh i spriyaye realizaciyam na paralelnomu aparatnomu zabezpechenni V navedenih nizhche rivnyannyah kozhna zminna kursivom u nizhnomu registri predstavlyaye vektor sho maye rozmir yakij dorivnyuye chislu vuzliv DKChP u bloci Bloki DKChP mistyat tri abo chotiri ventili angl gates yaki voni vikoristovuyut dlya keruvannya plinom informaciyi do abo z yihnoyi pam yati Ci ventili realizuyut iz zastosuvannyam logistichnoyi funkciyi dlya obchislennya znachen mizh 0 ta 1 Dlya chastkovogo dozvolyannya abo zaboroni plinu informaciyi do abo z ciyeyi pam yati zastosovuyetsya mnozhennya na ce znachennya Napriklad vhodovij ventil angl input gate keruye miroyu do yakoyi nove znachennya vhodit do pam yati Zabuvalnij ventil angl forget gate keruye miroyu do yakoyi znachennya zalishayetsya v pam yati A vihodovij ventil angl output gate keruye miroyu do yakoyi znachennya v pam yati vikoristovuyetsya dlya obchislennya aktivuvannya vihodu bloku V deyakih vtilennyah vhodovij ta zabuvalnij ventili ob yednuyut v odin Ideya yihnogo ob yednannya polyagaye v tomu sho chas zabuvati nastaye todi koli z yavlyayetsya nove znachennya varte zapam yatovuvannya Yedini vagi sho ye v bloci DKChP W displaystyle W ta U displaystyle U vikoristovuyutsya dlya spryamovuvannya diyi ventiliv Ci vagi zastosovuyutsya mizh znachennyami yaki nadhodyat do bloku vklyuchno z vhodovim vektorom xt displaystyle x t ta vihodom z poperednogo momentu chasu ht 1 displaystyle h t 1 ta kozhnim iz ventiliv Otzhe blok DKChP viznachaye yakim chinom pidtrimuvati svoyu pam yat yak funkciyu vid cih znachen i trenuvannya vag bloka DKChP sprichinyaye jogo navchannya takoyi funkciyi yaka minimizuye vtrati Bloki DKChP zazvichaj trenuyut za dopomogoyu zvorotnogo poshirennya v chasi Tradicijna DKChP Tradicijna DKChP iz zabuvalnimi vuzlami c0 0 displaystyle c 0 0 i h0 0 displaystyle h 0 0 displaystyle circ poznachaye dobutok Adamara poelementnij dobutok ft sg Wfxt Ufht 1 bf it sg Wixt Uiht 1 bi ot sg Woxt Uoht 1 bo ct ft ct 1 it sc Wcxt Ucht 1 bc ht ot sh ct displaystyle begin aligned f t amp sigma g W f x t U f h t 1 b f i t amp sigma g W i x t U i h t 1 b i o t amp sigma g W o x t U o h t 1 b o c t amp f t circ c t 1 i t circ sigma c W c x t U c h t 1 b c h t amp o t circ sigma h c t end aligned Zminni xt displaystyle x t vhodovij vektor ht displaystyle h t vihodovij vektor ct displaystyle c t vektor stanu komirki W displaystyle W U displaystyle U i b displaystyle b matrici ta vektor parametriv W vid angl weight vaga U vid angl update utochnennya b vid angl bias uperedzhennya ft displaystyle f t it displaystyle i t i ot displaystyle o t vektori ventiliv ft displaystyle f t Vektor zabuvalnogo ventilya Vaga pam yatannya staroyi informaciyi it displaystyle i t Vektor vhodovogo ventilya Vaga otrimannya novoyi informaciyi ot displaystyle o t Vektor vihodovogo ventilya Kandidatnist na vihid Funkciyi aktivaciyi sg displaystyle sigma g V originali ye sigmoyidnoyu funkciyeyu sc displaystyle sigma c V originali ye giperbolichnim tangensom sh displaystyle sigma h V originali ye giperbolichnim tangensom ale pracya z vichkovih DKChP radit sh x x displaystyle sigma h x x Vichkova DKChP Vichkova DKChP iz zabuvalnimi ventilyami ht 1 displaystyle h t 1 ne zastosovuyetsya natomist u bilshosti misc zastosovuyetsya ct 1 displaystyle c t 1 ft sg Wfxt Ufct 1 bf it sg Wixt Uict 1 bi ot sg Woxt Uoct 1 bo ct ft ct 1 it sc Wcxt bc ht ot sh ct displaystyle begin aligned f t amp sigma g W f x t U f c t 1 b f i t amp sigma g W i x t U i c t 1 b i o t amp sigma g W o x t U o c t 1 b o c t amp f t circ c t 1 i t circ sigma c W c x t b c h t amp o t circ sigma h c t end aligned Zgortkova DKChP Zgortkova DKChP displaystyle poznachaye operator zgortki ft sg Wf xt Uf ht 1 Vf ct 1 bf it sg Wi xt Ui ht 1 Vi ct 1 bi ot sg Wo xt Uo ht 1 Vo ct 1 bo ct ft ct 1 it sc Wc xt Uc ht 1 bc ht ot sh ct displaystyle begin aligned f t amp sigma g W f x t U f h t 1 V f circ c t 1 b f i t amp sigma g W i x t U i h t 1 V i circ c t 1 b i o t amp sigma g W o x t U o h t 1 V o circ c t 1 b o c t amp f t circ c t 1 i t circ sigma c W c x t U c h t 1 b c h t amp o t circ sigma h c t end aligned TrenuvannyaDlya minimizaciyi zagalnoyi pohibki DKChP na trenuvalnih poslidovnostyah mozhe zastosovuvatisya iterativnij gradiyentnij spusk takij yak zvorotne poshirennya v chasi dlya zmini kozhnogo vagovogo koeficiyentu proporcijno do jogo pohidnoyi po vidnoshennyu do pohibki Osnovnoyu problemoyu z gradiyentnim spuskom dlya standartnih RNM ye te sho gradiyenti pohibok znikayut eksponencijno shvidko z rozmirom chasovoyi zatrimki mizh vazhlivimi podiyami yak ce bulo vpershe z yasovano 1991 roku Prote u blokah DKChP koli znachennya pohibki zvorotno poshiryuyutsya z vihodu pohibka viyavlyayetsya v pastci v chastini pam yati bloku Ce nazivayut karusellyu pohibki angl error carousel yaka postijno podaye pohibku nazad do kozhnogo z ventiliv poki voni ne stayut natrenovanimi vidsikati ce znachennya Takim chinom regulyarne zvorotne poshirennya ye diyevim pri trenuvanni bloku DKChP zapam yatovuvati znachennya dlya duzhe dovgih trivalostej DKChP mozhe takozh trenuvatisya poyednannyam shtuchnoyi evolyuciyi dlya vagovih koeficiyentiv prihovanih vuzliv i psevdoobernennya abo metodu opornih vektoriv dlya vagovih koeficiyentiv vihodovih vuzliv U zastosuvannyah navchannya z pidkriplennyam DKChP mozhe trenuvatisya metodami gradiyentu strategiyi evolyucijnimi strategiyami abo genetichnimi algoritmami ZastosuvannyaZastosuvannya DKChP vklyuchayut en Prognozuvannya chasovih ryadiv Rozpiznavannya movlennya Navchannya ritmu Napisannya muziki Navchannya gramatiki Rozpiznavannya rukopisnogo tekstu Rozpiznavannya lyudskih dij Viyavlennya gomologiyi bilkivDiv takozh en Shtuchna nejronna merezha en Rekurentna nejronna merezha Ventilnij rekurentnij vuzol Chasovij ryad Dovgotrivala potenciaciya Magistraleva merezhaPrimitkiKlaus Greff Rupesh Kumar Srivastava Jan Koutnik Bas R Steunebrink Jurgen Schmidhuber 2015 LSTM A Search Space Odyssey arXiv 1503 04069 angl en Jurgen Schmidhuber 1997 en 9 8 1735 1780 doi 10 1162 neco 1997 9 8 1735 PMID 9377276 Arhiv originalu za 8 serpnya 2019 Procitovano 15 kvitnya 2017 angl amer Arhiv originalu za 9 travnya 2017 Procitovano 13 sichnya 2017 angl A Graves M Liwicki S Fernandez R Bertolami H Bunke J Schmidhuber A Novel Connectionist System for Improved Unconstrained Handwriting Recognition IEEE Transactions on Pattern Analysis and Machine Intelligence vol 31 no 5 2009 angl Graves Alex Mohamed Abdel rahman Hinton Geoffrey 2013 Speech Recognition with Deep Recurrent Neural Networks Acoustics Speech and Signal Processing ICASSP 2013 IEEE International Conference on 6645 6649 angl WIRED amer Arhiv originalu za 24 bereznya 2017 Procitovano 16 chervnya 2016 angl people idsia ch Arhiv originalu za 5 travnya 2021 Procitovano 16 chervnya 2016 angl Felix A Gers Jurgen Schmidhuber Fred Cummins 2000 en 12 10 2451 2471 doi 10 1162 089976600300015015 Arhiv originalu za 7 kvitnya 2019 Procitovano 15 kvitnya 2017 angl Gers F A Schmidhuber J 2001 PDF IEEE Transactions on Neural Networks 12 6 1333 1340 doi 10 1109 72 963769 Arhiv originalu PDF za 10 lipnya 2020 Procitovano 15 kvitnya 2017 angl Gers F Schraudolph N Schmidhuber J 2002 PDF Journal of Machine Learning Research 3 115 143 Arhiv originalu PDF za 28 lipnya 2017 Procitovano 15 kvitnya 2017 angl Xingjian Shi Zhourong Chen Hao Wang Dit Yan Yeung Wai kin Wong Wang chun Woo 2015 Proceedings of the 28th International Conference on Neural Information Processing Systems 802 810 Arhiv originalu za 9 listopada 2016 Procitovano 15 kvitnya 2017 angl S Hochreiter Untersuchungen zu dynamischen neuronalen Netzen Diploma thesis Institut f Informatik Technische Univ Munich 1991 nim S Hochreiter Y Bengio P Frasconi and J Schmidhuber Gradient flow in recurrent nets the difficulty of learning long term dependencies In S C Kremer and J F Kolen editors A Field Guide to Dynamical Recurrent Neural Networks IEEE Press 2001 angl Schmidhuber J Wierstra D Gagliolo M Gomez F 2007 Training Recurrent Networks by Evolino Neural Computation 19 3 757 779 doi 10 1162 neco 2007 19 3 757 angl H Mayer F Gomez D Wierstra I Nagy A Knoll and J Schmidhuber A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural Networks Advanced Robotics 22 13 14 pp 1521 1537 2008 angl J Schmidhuber and D Wierstra and F J Gomez Evolino Hybrid Neuroevolution Optimal Linear Search for Sequence Learning Proceedings of the 19th International Joint Conference on Artificial Intelligence IJCAI Edinburgh pp 853 858 2005 angl Graves A Schmidhuber J 2005 Framewise phoneme classification with bidirectional LSTM and other neural network architectures Neural Networks 18 5 6 602 610 doi 10 1016 j neunet 2005 06 042 angl S Fernandez A Graves J Schmidhuber An application of recurrent neural networks to discriminative keyword spotting Intl Conf on Artificial Neural Networks ICANN 07 2007 angl D Eck and J Schmidhuber Learning The Long Term Structure of the Blues In J Dorronsoro ed Proceedings of Int Conf on Artificial Neural Networks ICANN 02 Madrid pages 284 289 Springer Berlin 2002 angl Schmidhuber J Gers F Eck D Schmidhuber J Gers F 2002 Learning nonregular languages A comparison of simple recurrent networks and LSTM Neural Computation 14 9 2039 2041 doi 10 1162 089976602320263980 angl Perez Ortiz J A Gers F A Eck D Schmidhuber J 2003 Kalman filters improve LSTM network performance in problems unsolvable by traditional recurrent nets Neural Networks 16 2 241 250 doi 10 1016 s0893 6080 02 00219 8 angl A Graves J Schmidhuber Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks Advances in Neural Information Processing Systems 22 NIPS 22 pp 545 552 Vancouver MIT Press 2009 angl A Graves S Fernandez M Liwicki H Bunke J Schmidhuber Unconstrained online handwriting recognition with recurrent neural networks Advances in Neural Information Processing Systems 21 NIPS 21 pp 577 584 2008 MIT Press Cambridge MA 2008 angl M Baccouche F Mamalet C Wolf C Garcia A Baskurt Sequential Deep Learning for Human Action Recognition 2nd International Workshop on Human Behavior Understanding HBU A A Salah B Lepri ed Amsterdam Netherlands pp 29 39 Lecture Notes in Computer Science 7065 Springer 2011 angl Hochreiter S Heusel M Obermayer K 2007 Fast model based protein homology detection without alignment Bioinformatics 23 14 1728 1736 doi 10 1093 bioinformatics btm247 PMID 17488755 angl PosilannyaRekurentni nejronni merezhi 2 sichnya 2014 u Wayback Machine iz ponad 30 pracyami vid grupi Yurgena Shmidgubera v en angl Doktorska disertaciya 11 lipnya 2019 u Wayback Machine Zhera pro merezhi DKChP fr z dvoma glavami prisvyachenimi poyasnennyu rekurentnih nejronnih merezh osoblivo DKChP angl Pracya 23 kvitnya 2013 u Wayback Machine pro visokoproduktivne rozshirennya DKChP yake bulo sprosheno do yedinogo tipu vuzla i yake mozhe trenuvati dovilni arhitekturi angl Pidruchnik Arhivovano 3 sichnya 2015 u Archive is Yak realizuvati DKChP v Python za dopomogoyu Theano angl Karpathy Andrej 2015 Arhiv originalu za 26 bereznya 2017 Procitovano 31 bereznya 2017 angl Chen Edwin 2017 Arhiv originalu za 6 kvitnya 2019 Procitovano 1 kvitnya 2019 angl