Глибо́ке навча́ння (англ. deep learning, також іноді глиби́нне навча́ння) — це підмножина методів машинного навчання на основі штучних нейронних мережах із навчанням подань. Прикметник «глибоке» (англ. "deep") вказує на використання декількох шарів у мережі. Використовувані методи навчання можуть бути керованими, напівкерованими, та некерованими.
Архітектури глибокого навчання, такі як глибокі нейронні мережі, глибокі мережі переконань, рекурентні нейронні мережі, згорткові нейронні мережі та трансформери, застосовували в таких галузях як комп'ютерне бачення, розпізнавання мовлення, обробка природної мови, машинний переклад, біоінформатика, конструювання ліків, [en], кліматологія, перевірка матеріалів і програми настільних ігор, де вони дали результати, порівня́нні, а в деяких випадках і кращі за продуктивність людських експертів.
Штучні нейронні мережі (ШНМ) було натхненно обробкою інформації та розподіленими комунікаційними вузлами в біологічних системах. ШНМ мають різноманітні відмінності від біологічного мозку. Зокрема, штучні нейронні мережі зазвичай статичні та символьні, тоді як біологічний мозок більшості живих організмів динамічний (пластичний) та аналоговий. ШНМ загалом розглядають як низькоякісні моделі функціювання мозку.
Визначення
Глибоке навчання — це клас алгоритмів машинного навчання, який використовує декілька шарів, щоби поступово виділяти з сирого входу ознаки щоразу вищих рівнів. Наприклад, при обробці зображень нижчі шари можуть встановлювати контури, тоді як вищі шари можуть встановлювати поняття, доречні для людини, такі як цифри, літери чи обличчя.
Якщо поглянути на глибоке навчання під іншим кутом, то глибоке навчання позначує «комп'ютерне моделювання» або «автоматизацію» процесів навчання людиною від джерела (наприклад, зображення собак) до об'єкта навчання (собак). Тому мають сенс поняття, сформульовані як «глибше» (англ. "deeper") та «найглибше» (англ. "deepest") навчання. Найглибше навчання позначує повністю автоматичне навчання від джерела до кінцевого об'єкта навчання. Глибше навчання відтак позначує змішаний процес навчання: процес навчання людиною від джерела до навченого напівоб'єкта, за яким слідує комп'ютерний процес навчання від навченого людиною напівоб'єкта до кінцевого об'єкта навчання.
Огляд
Більшість сучасних моделей глибокого навчання ґрунтуються на багатошарових штучних нейронних мережах, таких як згорткові нейронні мережі та трансформери, хоча до них також можуть належати [en] та латентні змінні, організовані пошарово в глибоких породжувальних моделях, такі як вузли в глибоких мережах переконань чи глибоких машинах Больцмана.
У глибокому навчанні кожен рівень вчиться перетворювати свої вхідні дані на дещо абстрактніше й складніше подання. У застосунку для розпізнавання зображень сирий вхід може бути матрицею пікселів; перший шар подання може абстрагуватися від пікселів і кодувати контури; другий шар може складати та кодувати їхнє розташування; третій шар може кодувати ніс та очі; а четвертий шар може розпізнавати, що зображення містить обличчя. Важливо, що процес глибокого навчання може самостійно вчитися, які ознаки оптимально розмістити на якому рівні. Це не звільняє від необхідності ручного настроювання; наприклад, різна кількість та розміри шарів можуть забезпечувати різні ступені абстракції.
Слово «глибоке» у «глибокому навчанні» позначує кількість шарів, крізь які перетворюються дані. Точніше, системи глибокого навчання мають значну глибину шляху розподілу внеску (ШРВ, англ. credit assignment path, CAP). ШРВ — це ланцюг перетворень від входу до виходу. ШРВ описують потенційно причинно-наслідкові зв'язки між входом та виходом. Для нейронної мережі прямого поширення глибина ШРВ дорівнює глибині мережі й є кількістю прихованих шарів плюс один (оскільки шар виходу також параметризовано). Для рекурентних нейронних мереж, у яких сигнал може поширюватися крізь шар понад один раз, глибина ШРВ потенційно необмежена. Немає універсально узгодженого порогу глибини, який відділяє неглибоке навчання (англ. shallow learning) від глибокого, але більшість дослідників сходяться на думці, що глибоке навчання використовує глибину ШРВ вище 2. Було показано, що ШРВ глибини 2 це універсальний наближувач у тому сенсі, що він може моделювати будь-яку функцію. Поза цим, більше шарів не додають нічого до здатності мережі наближувати функції. Глибокі моделі (ШРВ > 2) здатні виділяти кращі ознаки, ніж неглибокі моделі, й отже, додаткові шари допомагають ефективно навчатися ознак.
Архітектури глибокого навчання можливо конструювати пошарово жадібним методом. Глибоке навчання допомагає розплутувати ці абстракції й обирати, які ознаки покращують продуктивність.
Для завдань керованого навчання методи глибокого навчання уможливлюють усування конструювання ознак, переводячи дані до компактних проміжних подань, подібних до головних компонент, і виводять багатошарові структури, які усувають надмірність у поданні.
Алгоритми глибокого навчання можливо застосовувати до завдань некерованого навчання. Це важлива перевага, оскільки немічені дані численніші за мічені. Прикладами глибоких структур, які можливо тренувати некерованим чином, є глибокі мережі переконань.
Моделі машинного навчання тепер вправні у виявлянні складних шаблонів у даних фінансових ринків. Завдяки перевагам штучного інтелекту інвестори все частіше використовують методики глибокого навчання для прогнозування та аналізу тенденцій на фондових та валютних ринках.
Інтерпретації
Глибокі нейронні мережі зазвичай інтерпретують у термінах теореми про універсальне наближення або ймовірнісного висновування.
Класична теорема про універсальне наближення стосується здатності нейронної мережі прямого поширення з одним прихованим шаром скінченного розміру наближувати неперервні функції. 1989 року Джордж Цибенко опублікував перше її доведення для сигмоїдних передавальних функцій, а 1991 року [de] узагальнив його для багатошарових архітектур прямого поширення. Нещодавня робота також показала, що універсальне наближення також виконується для необмежених передавальних функцій, таких як випрямлений лінійний вузол (англ. rectified linear unit) [en].
Теорема про універсальне наближення для глибоких нейронних мереж розглядає пропускну спроможність мереж з обмеженою шириною, дозволяючи зростати глибині. Лу зі співавт. довели, що якщо ширина глибокої нейронної мережі з передавальною функцією ReLU строго більша за розмірність входу, то ця мережа може наближувати будь-яку функцію, інтегровну за Лебегом; якщо її ширина менша або дорівнює розмірності входу, то глибока нейронна мережа не є універсальним наближувачем.
Імовірнісна інтерпретація походить з галузі машинного навчання. Вона відводить провідне місце висновуванню, а також таким поняттям оптимізації як тренування та випробування, пов'язаним із допасовуванням та узагальнюванням відповідно. Конкретніше, ймовірнісна інтерпретація розглядає нелінійність передавальної функції як кумулятивну функцію розподілу. Імовірнісна інтерпретація призвела до запровадження виключення (англ. dropout) як регуляризатора в нейронних мережах. Імовірнісну інтерпретацію було запроваджено дослідниками включно з Гопфілдом, [en] та [en], й популяризовано в оглядах, таких як від [en].
Історія
Існує два типи нейронних мереж: нейронні мережі прямого поширення (НМПП, англ. feedforward neural network, FNN) та рекурентні нейронні мережі (РНМ, англ. recurrent neural network, RNN). РНМ мають цикли у структурі зв'язності, а НМПП — ні. У 1920-х роках [en] та [en] створили та проаналізували модель Ізінга, яка, по суті, є архітектурою РНМ, що не навчається, і складається з нейроноподібних порогових елементів. 1972 року [en] зробив цю архітектуру адаптивною. Його навчання РНМ популяризував Джон Гопфілд 1982 року. РНМ стали центральними для розпізнавання мовлення та [en].
Чарльз Тапперт пише, що Френк Розенблат розробив та дослідив усі основні складові сучасних систем глибокого навчання, посилаючись на книгу Розенблата 1962 року, якою було запроваджено багатошаровий перцептрон (БШП) із 3 шарами: шаром входу, прихованим шаром із випадковими вагами, що не навчалися, та шаром виходу. Він також запропонував варіанти, включно з версією з чотирьохшаровими перцептронами, де останні два шари мають ваги, що навчаються (й отже, справжній багатошаровий перцептрон). Крім того, термін глибоке навчання запропонувала 1986 року [en], хоча історія його появи, схоже, набагато складніша.
Перший загальний, робочий алгоритм навчання для глибоких багатошарових перцептронів прямого поширення керованим навчанням опублікували 1967 року Олексій Івахненко та . У статті 1971 року описано глибоку мережу з восьми шарів, треновану методом групового урахування аргументів.
Перший багатошаровий перцептрон глибокого навчання, тренований стохастичним градієнтним спуском, опублікував 1967 року [en]. У комп'ютерних експериментах, проведених учнем Амарі, Сайто, п'ятишаровий БШП із двома змінними шарами навчився внутрішніх подань для класифікування нелінійно роздільних класів образів. 1987 року Метью Бренд повідомив, що широкі 12-шарові нелінійні перцептрони можливо повністю наскрізно тренувати відтворювати логічні функції нетривіальної глибини ланцюга за допомогою градієнтного спуску на невеликих пакетах випадкових вибірок входів/виходів, але зробив висновок, що час тренування на тогочасному обладнанні (домегафлопних комп'ютерах) зробив цю методику непрактичною, та запропонував використовувати незмінні випадкові ранні шари як хеш входу для єдиного змінюваного рівня. Натомість подальші розробки апаратного забезпечення та підлаштовування гіперпараметрів зробили наскрізний стохастичний градієнтний спуск нині переважною методикою тренування.
1970 року [en] опублікував зворотний режим автоматичного диференціювання дискретно зв'язаних мереж вкладених диференційовних функцій. Він став відомим як зворотне поширення. Це ефективне застосування ланцюгового правила, виведеного Готфрідом Вільгельмом Лейбніцем 1673 року, до мереж диференційовних вузлів. Термінологію «зворотно поширювані похибки» (англ. "back-propagating errors") фактично запровадив 1962 року Розенблат, але він не знав, як це втілити, хоча [en] вже 1960 року мав безперервного попередника зворотного поширення в контекст теорії керування. 1982 року [en] застосував зворотне поширення до БШП у спосіб, який став стандартним. 1985 року Девід Румельхарт зі співавт. опублікували експериментальний аналіз цієї методики.
Ахітектури глибокого навчання для згорткових нейронних мереж (ЗНМ, англ. convolutional neural networks, CNN) зі згортковими шарами та шарами зниження роздільності почалися з неокогнітрона, запропонованого [en] 1980 року. 1969 року він також запропонував передавальну функцію ReLU (англ. rectified linear unit, випрямлений лінійний вузол). Цей випрямляч (англ. rectifier) став найпопулярнішою передавальною функцією для ЗНМ та глибокого навчання в цілому. ЗНМ стали важливим інструментом комп'ютерного бачення.
Термін глибоке навчання (англ. Deep Learning) у спільноті машинного навчання запровадила 1986 року [en], а для штучних нейронних мереж — Ігор Айзенберг з колегами у 2000 року в контексті [en] порогових нейронів.
1988 року Вей Чжан зі співавт. застосували алгоритм зворотного поширення до згорткової нейронної мережі (спрощений неокогнітрон зі згортковими взаємозв'язками між шарами ознак зображення та останнім повноз'єднаним шаром) для розпізнавання абетки. Вони також запропонували втілення ЗНМ з оптичною обчислювальною системою. 1989 року Ян ЛеКун зі співавт. застосували зворотне поширення до ЗНМ з метою розпізнавання рукописних поштових індексів у пошті. Хоч цей алгоритм і працював, тренування вимагало 3 днів. Згодом Вей Чжан зі співавт. видозмінили свою модель, видаливши останній повноз'єднаний шар, та застосувавши її для сегментування об'єктів медичних зображень 1991 року, та для виявляння раку молочної залози на мамограмах 1994 року. LeNet-5 (1998), 7-рівневу ЗНМ від Яна ЛеКуна зі співавт., що класифікує цифри, кілька банків застосували для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселі.
У 1980-х роках зворотне поширення не працювало добре для глибокого навчання з довгими шляхами розподілу внеску. Щоби подолати цю проблему, Юрген Шмідхубер (1992) запропонував ієрархію РНМ, попередньо тренованих порівнево самокерованим навчанням. Вона використовує [en] для навчання внутрішніх подань у кількох самоорганізованих масштабах часу. Це може істотно полегшувати наступне глибоке навчання. Цю ієрархію РНМ можливо скласти (англ. collapse) в єдину РНМ шляхом [en] фрагментувальної (англ. chunker) мережі вищого рівня до автоматизаторної (англ. automatizer) мережі нижчого рівня. 1993 року фрагментувальник розв'язав завдання глибокого навчання, чия глибина перевищувала 1000.
1992 року Юрген Шмідхубер також опублікував альтернативу РНМ (англ. alternative to RNNs), яку зараз називають лінійним трансформером (англ. linear Transformer) або трансформером з лінеаризованою самоувагою (за винятком оператора нормування). Він навчається внутрішніх центрів уваги (англ. internal spotlights of attention): повільна нейронна мережа прямого поширення вчиться за допомогою градієнтного спуску керувати швидкими вагами іншої нейронної мережі через тензорні добутки самопороджуваних шаблонів збудження FROM і TO (званих тепер ключем, англ. key, та значенням, англ. value, самоуваги). Це відображення уваги (англ. attention mapping) швидких ваг застосовують до шаблону запиту.
Сучасний трансформер (англ. Transformer) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага — це все, що вам треба». Він поєднує це з оператором softmax та проєкційною матрицею. Трансформери все частіше обирають за модель для обробки природної мови. Багато сучасних великих мовних моделей, таких як ChatGPT, GPT-4 та BERT, використовують саме його. Трансформери також все частіше використовують у комп'ютернім баченні.
1991 року Юрген Шмідхубер також опублікував змагальні нейронні мережі (англ. adversarial neural networks), які змагаються між собою у формі антагоністичної гри, де виграш однієї мережі є програшем іншої. Перша мережа є породжувальною моделлю, яка моделює розподіл імовірності над образами на виході. Друга мережа навчається градієнтним спуском передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» (англ. "artificial curiosity"). 2014 року цей принцип використали у породжувальній змагальній мережі (англ. generative adversarial network, GAN) Ян Ґудфелоу зі співавт. Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних дипфейків. Відмінної якості зображення досягла [en] Nvidia (2018) на основі прогресивної породжувальної змагальної мережі (англ. Progressive GAN) Теро Карраса зі співавт. Тут породжувач вирощується від малого до великого пірамідним чином.
Дипломну працю [en] (1991) його керівник Шмідхубер назвав «одним із найважливіших документів в історії машинного навчання». Він не лише випробував нейронний стискач історії, але й виявив та проаналізував проблему зникання градієнта. Для розв'язання цієї проблеми Хохрайтер запропонував рекурентні залишкові зв'язки. Це призвело до появи методу глибокого навчання, званого довгою короткочасною пам'яттю (ДКЧП, англ. long short-term memory, LSTM), опублікованого 1997 року. Рекурентні нейронні мережі ДКЧП можуть навчатися задач «дуже глибокого навчання» з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися тисячі дискретних часових кроків тому. «Стандартну ДКЧП» (англ. vanilla LSTM) із забувальним вентилем запропонували 1999 року [en], Шмідхубер та Фред Каммінс. ДКЧП стала найцитованішою нейронною мережею XX століття. 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип ДКЧП для створення магістралевої мережі, нейронної мережі прямого поширення з сотнями шарів, набагато глибшої за попередні. 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли [en] 2015 із відкритовентильним або безвентильним варіантом магістралевої мережі, названим за́лишковою нейронною мережею (англ. Residual neural network). Вона стала найцитованішою нейронною мережею XXI століття.
1994 року Андре де Карвальо разом з Майком Фейргерстом та Девідом Біссетом опублікували експериментальні результати багатошарової булевої нейронної мережі, відомої також як безвагова нейронна мережа (англ. weightless neural network), складеної з 3-шарового самоорганізовуваного нейромережного модуля виділяння ознак (англ. SOFT), з багатошаровим класифікаційним нейромережним модулем (англ. GSN) за ним, тренованих незалежно. Кожен шар у модулі виділяння ознак виділяв ознаки все вищої складності відносно попереднього шару.
1995 року [en] продемонстрував можливість натренувати (протягом двох днів) мережу із шести повноз'єднаних шарів та кількох сотень прихованих вузлів, використовуючи [en], розроблений спільно з [en] та Гінтоном.
З 1997 року Свен Бенке розширив ієрархічний згортковий підхід прямого поширення у нейронній піраміді абстракцій (англ. Neural Abstraction Pyramid) за допомогою бічних та зворотних з'єднань, щоби гнучко включати контекст у рішення та ітеративно розв'язувати локальні неоднозначності.
У 1990-х і 2000-х роках популярністю користувалися простіші моделі, які використовують сконструйовані вручну ознаки для конкретних завдань, такі як фільтри Ґабора (англ. Gabor filters) та опорновекторні машини (ОВМ, англ. support vector machines, SVM), через обчислювальну витратність штучних нейронних мереж (ШНМ) та брак розуміння того, як мозок сплітає свої біологічні мережі.
Як неглибоке, так і глибоке навчання (наприклад, рекурентні мережі) ШНМ для розпізнавання мовлення досліджували протягом багатьох років. Ці методи ніколи не перевершували технологію неоднорідних внутрішньо-ручних гауссових [en]/прихованих марковських моделей (ГСМ-ПММ, англ. GMM-HMM) на основі породжувальних моделей мовлення, тренованих розрізнювально. Було проаналізовано основні труднощі, включно зі зниканням градієнта й слабкою структурою часової кореляції в нейронних передбачувальних моделях. Додатковими труднощами були брак тренувальних даних та обмежена обчислювальна потужність. Більшість дослідників розпізнавання мовлення відійшли від нейронних мереж, щоби займатися породжувальним моделюванням. Винятком був SRI International наприкінці 1990-х років. Фінансований агенціями уряду США АНБ та DARPA, SRI вивчав глибокі нейронні мережі в розпізнаванні мовлення та мовця. Команда розпізнавання мовців на чолі з [en] повідомила про значний успіх із глибокими нейронними мережами в обробці мовлення на оцінюванні розпізнавання мовців Національного інституту стандартів і технологій 1998 року. Потім глибоку нейронну мережу SRI було розгорнуто в Nuance Verifier, що стало першим великим промисловим застосуванням глибокого навчання. Принцип піднесення «сирих» ознак над ручною оптимізацією було вперше успішно досліджено в архітектурі глибокого автокодувальника на «сирій» спектрограмі або ознаках лінійного [en] наприкінці 1990-х, що показало його перевагу над мел-кепстровими ознаками, які містять етапи незмінного перетворення зі спектрограм. Сирі ознаки мовлення, хвилеформи, згодом дали чудові великомасштабні результати.
Розпізнавання мовлення перейняла ДКЧП. 2003 року ДКЧП на певних завданнях почала конкурувати з традиційними розпізнавачами мовлення. 2006 року [en], Сантьяго Фернандес, Фаустіно Ґомес та Шмідхубер поєднали її з [en] (НЧК, англ. connectionist temporal classification, CTC) у стеках РНМ ДКЧП. 2015 року в розпізнаванні мовлення Google, як було повідомлено, стався різкий 49-відсотковий стрибок продуктивності завдяки НЧК-тренованій ДКЧП, яку вони зробили доступною через голосовий пошук Google.
Вплив глибокого навчання в промисловості почався на початку 2000-х років, коли, за словами Яна ЛеКуна, ЗНМ вже обробляли приблизно від 10 % до 20 % усіх чеків, виписуваних у США. Промислові застосування глибокого навчання для широкомасштабного розпізнавання мовлення почалися приблизно 2010 року.
2006 року публікації Джеффа Гінтона, [en], Осіндеро та [en] показали, як багатошарову нейронну мережу прямого поширення можливо ефективно попередньо тренувати шар за шаром, розглядаючи кожен шар по черзі як некеровану обмежену машину Больцмана, а потім тонко налаштовувати її за допомогою керованого зворотного поширення. Ці праці стосувалися навчання для глибоких мереж переконань.
Мотивом семінару NIPS 2009 року з глибокого навчання для розпізнавання мовлення були обмеження глибоких породжувальних моделей мовлення та можливість того, що завдяки потужнішому апаратному забезпеченню та великомасштабним наборам даних глибокі нейронні мережі (ГНМ, англ. deep neural nets, DNN) можуть стати практичними. Вважалося, що попереднє тренування ГНМ за допомогою породжувальних моделей глибоких мереж переконань (ГМП, англ. deep belief nets, DBN) дозволить подолати основні труднощі нейронних мереж. Проте було виявлено, що заміна попереднього тренування великими обсягами тренувальних даних для безпосереднього зворотного поширення при використанні ГНМ з великими контекстнозалежними шарами виходу призводить до різко нижчих рівнів похибок, ніж у гауссової сумішевої моделі (ГСМ)/прихованої марковської моделі (ПММ), що була на рівні останніх досягнень на той час, а також ніж у передовіших систем на основі породжувальних моделей. Природа похибок розпізнавання, породжуваних цими двома типами систем, характерно відрізнялася, пропонуючи технічні прояснення щодо того, як інтегрувати глибоке навчання в наявну високоефективну систему декодування мовлення в реальному часі, розгорнуту всіма основними системами розпізнавання мовлення. Аналіз близько 2009—2010 років, порівнюючи ГСМ (та інші породжувальні моделі мовлення) з моделями ГНМ, стимулював перші промислові інвестиції в глибоке навчання для розпізнавання мовлення. Цей аналіз було зроблено з порівнянною продуктивністю (менше 1,5 % у рівні похибок) між розрізнювальними ГНМ та породжувальними моделями. 2010 року дослідники розширили глибоке навчання від [en] до великословникового розпізнавання мовлення, застосувавши великі шари виходу ГНМ на основі контекстнозалежних станів ПММ, побудованих за допомогою дерев рішень.
Глибоке навчання є частиною систем рівня останніх досягнень у різних дисциплінах, зокрема в комп'ютернім баченні та автоматичному розпізнаванні мовлення (АРМ, англ. automatic speech recognition, ASR). Результати на загальновживаних оцінювальних наборах, таких як [en] (АРМ) та MNIST (класифікування зображень), а також низці завдань великословникового розпізнавання мовлення, постійно покращувалися. Згорткові нейронні мережі (ЗНМ) для АРМ було витіснено НЧК для ДКЧП, але в комп'ютернім баченні вони успішніші.
Удосконалення апаратного забезпечення відновило інтерес до глибокого навчання. 2009 року Nvidia брала участь у так званому «великому вибуху» глибокого навчання, «оскільки нейронні мережі глибокого навчання тренували за допомогою графічних процесорів (ГП) Nvidia». Того року Ендрю Ин визначив, що ГП можуть підвищити швидкість систем глибокого навчання приблизно в 100 разів. Зокрема, ГП добре підходять для матричних/векторних обчислень, задіяних у машинному навчанні. ГП прискорюють алгоритми тренування на порядки, скорочуючи час роботи з тижнів до днів. Крім того, для ефективної обробки моделей глибокого навчання можливо використовувати спеціалізоване обладнання та оптимізацію алгоритмів.
Революція глибокого навчання
Наприкінці 2000-х глибоке навчання почало перевершувати інші методи в змаганнях з машинного навчання. 2009 року довга короткочасна пам'ять, натренована [en] ([en], Сантьяго Фернандес, Фаустіно Ґомес та Юрген Шмідхубер, 2006) стала першою РНМ, яка виграла конкурси з розпізнавання образів, вигравши три змагання з розпізнавання неперервного рукописного тексту. Пізніше Google використала натреновану НЧК ДКЧП для розпізнавання мовлення на смартфоні.
Значний вплив на розпізнавання зображень або об'єктів відчувався з 2011 по 2012 роки. Хоча ЗНМ, треновані зворотним поширенням, існували десятиліттями, а втілення НМ на ГП — роками, включно із ЗНМ, для прогресу в комп'ютернім баченні знадобилися швидші втілення ЗНМ на графічних процесорах. 2011 року DanNet Дена Чирешана, Улі Меєра, Джонатана Маскі, [en] та Юргена Шмідхубера вперше досягла надлюдських результатів у змаганні з розпізнавання візуальних образів, перевершивши традиційні методи втричі. Також 2011 року DanNet виграла конкурс із китайського рукописного тексту ICDAR, а в травні 2012 року перемогла в конкурсі з сегментування зображень ISBI. До 2011 року ЗНМ не відігравали великої ролі на конференціях з комп'ютерного бачення, але в червні 2012 року публікація Чирешана зі співавт. на провідній конференції CVPR показала, як максимізувально агрегувальні ЗНМ на ГП можуть значно покращувати багато еталонних рекордів у баченні. У вересні 2012 року DanNet також виграла конкурс ICPR з аналізу великих медичних зображень для виявляння раку, а наступного року також і MICCAI Grand Challenge на ту ж тему. У жовтні 2012 року подібна AlexNet Олексія Крижевського, Іллі Суцкевера та Джефрі Гінтона виграла великомасштабне [en] зі значним відривом від неглибоких методів машинного навчання. Мережа VGG-16 Карена Симоняна та [en] ще більше знизила рівень похибок і виграла конкурс ImageNet 2014, слідуючи подібній тенденції у широкомасштабному розпізнаванні мовлення.
Потім класифікування зображень було розширено до складнішого завдання [en] (підписів) для зображень, часто як поєднання ЗНМ та ДКЧП.
2012 року команда під проводом Джорджа Даля виграла конкурс «Merck Molecular Activity Challenge», використовуючи багатозадачні глибокі нейронні мережі для передбачування [en] одного препарату. 2014 року група [en] використала глибоке навчання для виявляння нецільових і токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках, і виграла «Tox21 Data Challenge» NIH, FDA та [en].
2016 року Роджер Парлофф зазначив «революцію глибокого навчання», яка змінила галузь ШІ.
У березні 2019 року [en], Джефрі Гінтона та Яна ЛеКуна було нагороджено премією Тюрінга за концептуальні та інженерні прориви, які зробили глибокі нейронні мережі критично важливою складовою обчислювальної техніки.
Нейронні мережі
Шту́чні нейро́нні мере́жі (ШНМ, англ. artificial neural networks, ANN) або коннекціоні́стські систе́ми (англ. connectionist systems) — це обчислювальні системи, натхненні біологічними нейронними мережами, які складають мозок тварин. Такі системи вчаться (поступово вдосконалюють свої здібності) виконувати завдання, розглядаючи приклади, як правило, без програмування під конкретне завдання. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, які містять котів, аналізуючи приклади зображень, [en] вручну як «кіт» чи «кота нема», і використовуючи результати цього аналізу для встановлювання котів на інших зображеннях. Вони знайшли найбільше використання в застосуваннях, які важко висловити за допомогою традиційного комп'ютерного алгоритму з використанням програмування на основі правил .
ШНМ ґрунтується на сукупності з'єднаних вузлів, званих штучними нейронами (аналогічно біологічним нейронам у біологічному мозку). Кожне з'єднання (синапс) між нейронами може передавати сигнал іншому нейронові. Приймальний (постсинаптичний) нейрон може обробляти сигнал(и), а потім сигналізувати подальшим нейронам. Нейрони можуть мати стан, як правило, поданий дійсними числами, зазвичай між 0 та 1. Нейрони та синапси також можуть мати вагу, яка змінюється в міру навчання, що може збільшувати або зменшувати силу сигналу, який вони надсилають далі.
Як правило, нейрони впорядковано в шари (англ. layers). Різні шари можуть виконувати різні типи перетворень над своїми входами. Сигнали проходять від першого шару (шару входу) до останнього шару (шару виходу), можливо, після проходження шарами декілька разів.
Початкова мета нейромережного підходу полягала у розв'язуванні задач таким же чином, як це робив би людський мозок. З часом увага зосередилася на відповідності конкретним розумовим здібностям, що призвело до відхилень від біології, таких як зворотне поширення, або передавання інформації у зворотному напрямку з підлаштовуванням мережі відображувати цю інформацію.
Нейронні мережі використовували для різноманітних завдань, включно з комп'ютерним баченням, розпізнаванням мовлення, машинним перекладом, фільтруванням соціальних мереж, [en] та медичною діагностикою.
Станом на 2017 рік нейронні мережі зазвичай мають від кількох тисяч до кількох мільйонів вузлів та мільйони з'єднань. Незважаючи на те, що це число на кілька порядків менше за число нейронів у мозку людини, ці мережі можуть виконувати багато завдань на рівні, що перевершує людський (наприклад, розпізнавати обличчя або грати в «Ґо»).
Глибокі нейронні мережі
Глибока нейронна мережа (ГНМ, англ. deep neural network, DNN) — це штучна нейронна мережа (ШНМ) із кількома шарами між шарами входу та виходу. Існують різні типи нейронних мереж, але вони завжди складаються з тих же складових: нейронів, синапсів, ваг, зміщень та функцій. Ці складові в цілому функціонують у спосіб, що імітує функціювання людського мозку, і їх, як і будь-який інший алгоритм МН, можливо тренувати.[]
Наприклад, ГНМ, тренована розпізнавати породи собак, проходитиме заданим зображенням й обчислюватиме ймовірність того, що зображений собака належить до певної породи. Користувач може переглядати результати й обирати, які ймовірності мережа повинна відображувати (вище певного порогу тощо) й повертати запропоновану мітку. Кожну математичну маніпуляцію як таку вважають шаром,[] і складні ГНМ мають багато шарів, звідси й назва «глибокі» мережі.
ГНМ можуть моделювати складні нелінійні зв'язки. Архітектури ГНМ породжують композиційні моделі, де об'єкт виражають багатошаровою композицією примітивів. Додаткові шари дозволяють комбінувати ознаки з нижчих шарів, потенційно моделюючи складні дані меншою кількістю вузлів, ніж неглибокі мережі з подібною продуктивністю. Наприклад, було доведено, що розріджені багатовимірні многочлени експоненційно легше наближувати за допомогою ГНМ, ніж за допомогою неглибоких мереж.
До глибоких архітектур належать багато варіантів кількох основних підходів. Кожна архітектура досягла успіху в певних областях. Не завжди можливо порівняти продуктивність кількох архітектур, якщо їх оцінювали не на однакових наборах даних.
ГНМ, як правило, є мережами прямого прямого поширення, в яких дані проходять з шару входу до шару виходу без повернення назад. Спочатку ГНМ створює карту віртуальних нейронів і призначує зв'язкам між ними випадкові числові значення, або «ваги». Ваги та входи перемножуються й повертають результат між 0 та 1. Якщо мережа не розпізнає певний образ точно, алгоритм підлаштовує ці ваги. Таким чином алгоритм може робити певні параметри впливовішими, доки не визначить правильну математичну операцію для повної обробки даних.
Рекурентні нейронні мережі (РНМ, англ. recurrent neural networks, RNN), в яких дані можуть простувати в будь-якому напрямку, використовують для таких застосувань як моделювання мови. Для цього використання особливо ефективна довга короткочасна пам'ять.
Згорткові глибокі нейронні мережі (ЗНМ, англ. convolutional deep neural networks, CNN) використовують у комп'ютернім баченні. ЗНМ також застосовували до [en] для автоматичного розпізнавання мовлення (АРМ, англ. automatic speech recognition, ASR).
Виклики
Як і з ШНМ, при наївному тренуванні ГНМ може виникати багато проблем. Двома поширеними проблемами є перенавчання та обчислювальний час.
ГНМ схильні до перенавчання через додані шари абстрагування, які дозволяють їм моделювати рідкісні залежності в тренувальних даних. Для боротьби з перенавчанням під час тренування можливо застосовувати методи регуляризації, такі як обрізання вузлів (англ. unit pruning) Івахненка, [en] (англ. weight decay, -регуляризація) та розрідженість (англ. sparsity, -регуляризація). Альтернативна регуляризація виключенням (англ. dropout) випадковим чином вилучає вузли з прихованих шарів під час тренування. Це допомагає виключати рідкісні залежності. Нарешті, дані можливо доповнювати за допомогою таких методів як обрізання та обертання, щоби менші тренувальні набори можливо було збільшити в розмірі задля зменшення ймовірності перенавчання.
ГНМ повинні враховувати багато параметрів тренування, таких як розмір (кількість шарів і кількість вузлів на шар), темп навчання та первинні ваги. (Прочісування простору параметрів) для отримання оптимальних значень може бути недосяжним через часові та обчислювальні витрати. Обчислення прискорюють різні трюки, такі як пакетування (англ. batching, обчислення градієнта на кількох тренувальних прикладах одночасно, замість обчислення на окремих). Великі оброблювальні можливості багатоядерних архітектур (таких як графічні процесори та Intel Xeon Phi) призвели до значного прискорення тренування через придатність таких оброблювальних архітектур для матричних та векторних обчислень.
Крім того, інженери можуть шукати інші типи нейронних мереж із простішими та збіжнішими алгоритмами тренування. Одним із таких видів нейронних мереж є АКММ ([en], англ. cerebellar model articulation controller, CMAC). Він не потребує темпів навчання та увипадковлених первинних ваг. Може бути гарантовано збіжність його процесу тренування за один крок із новим пакетом даних, а обчислювальна складність алгоритму тренування лінійна щодо кількості задіяних нейронів.
Апаратне забезпечення
З 2010-х років прогрес як в алгоритмах машинного навчання, так і в комп'ютерному апаратному забезпеченні призвів до ефективніших методів тренування глибоких нейронних мереж, які містять багато шарів нелінійних прихованих вузлів і дуже великий шар виходу. До 2019 року графічні процесори (ГП), часто зі спеціальними вдосконаленнями для ШІ, витіснили ЦП як переважний метод тренування великомасштабного комерційного хмарного ШІ. OpenAI оцінила апаратні обчислення, які використовували в найбільших проєктах глибокого навчання від AlexNet (2012) і до AlphaZero (2017), і виявила 300 000-кратне збільшення необхідного обсягу обчислень із тенденцією подвоєння часу кожні 3,4 місяці.
Для прискорення алгоритмів глибокого навчання було розроблено спеціальні електронні схеми, звані процесорами глибокого навчання. До процесорів глибокого навчання належать нейронні процесори (НП, англ. neural processing units, NPU) у мобільних телефонах Huawei та серверах хмарних обчислень, такі як тензорні процесори (ТП, англ. tensor processing units, TPU) у Google Cloud Platform. [en] також створила спеціальну систему для обробки великих моделей глибокого навчання, CS-2, що ґрунтується на найбільшому процесорі в галузі, другому поколінні Wafer Scale Engine (WSE-2).
Атомарно тонкі напівпровідники вважають перспективними для енергоефективного апаратного забезпечення глибокого навчання, де одну й ту ж базову структуру пристрою використовують як для логічних операцій, так і для зберігання даних. 2020 року Марега зі співавт. опублікували експерименти з активноканальним матеріалом великої площі для розробки пристроїв і схем з логічною пам'яттю на основі польових транзисторів з плавни́м затвором (англ. floating-gate field-effect transistors, FGFET).
2021 року Й. Фельдманн зі співавт. запропонували інтегрований фотонний апаратний прискорювач для паралельної згорткової обробки. Автори виділяють дві ключові переваги інтегрованої фотоніки над її електронними аналогами: (1) масивна паралельна передача даних через мультиплексування за довжиною хвилі в поєднанні з частотними гребінцями та (2) надзвичайно висока швидкість модуляції даних. Їхня система може виконувати трильйони операцій множення-додавання за секунду, що вказує на потенціал інтегрованої фотоніки у застосуваннях штучного інтелекту, які потребують великих даних.
Застосування
Автоматичне розпізнавання мовлення
Великомасштабне автоматичне розпізнавання мовлення — це перший і найпереконливіший успішний приклад глибокого навчання. РНМ ДКЧП можуть навчатися завдань «дуже глибокого навчання», до яких належать багатосекундні інтервали, що містять мовленнєві події, розділені тисячами дискретних часових кроків, де один часовий крок відповідає приблизно 10 мс. ДКЧП із забувальними вентилями на певних завданнях конкурентоспроможні з традиційними розпізнавачами мовлення.
Початковий успіх у розпізнаванні мовлення ґрунтувався на невеликих завданнях розпізнавання на основі [en]. Цей набір даних містить 630 носіїв восьми основних діалектів американської англійської, де кожен читає 10 речень. Його невеликий розмір дозволяє випробувати багато конфігурацій. Що ще важливіше, завдання TIMIT стосується розпізнавання [en] послідовностей, яке, на відміну від розпізнавання послідовності слів, дозволяє використовувати слабкі фонобіграмні мовні моделі. Це дозволяє легше аналізувати силу аспектів акустичного моделювання розпізнавання мовлення. Частоту похибки, наведену нижче, включно з цими ранніми результатами, виміряну у відсотках рівнів фональних похибок (РФП, англ. phone error rates, PER), було узагальнено з 1991 року.
Метод | Відсоток рівня фональної похибки (РФП) (%) |
---|---|
РНМ з випадковими початковими значеннями | 26,1 |
Баєсова трифональна [en]-ПММ | 25,6 |
Модель прихованої траєкторії (породжувальна) | 24,8 |
Монофональна ГНМ з випадковими початковими значеннями | 23,4 |
Монофональна ГМП-ГНМ | 22,4 |
Трифональна [en]-ПММ з навчанням ПМВІ | 21,7 |
Монофональна ГМП-ГНМ на [en] | 20,7 |
Згорткова ГНМ | 20,0 |
Згорткова ГНМ з різнорідним агрегуванням | 18,7 |
Ансамблева ГНМ/ЗНМ/РНМ | 18,3 |
Двоспрямована ДКЧП | 17,8 |
Ієрархічна згорткова глибока максимумовиходова мережа | 16,5 |
Дебют ГНМ для розпізнавання мовців наприкінці 1990-х та розпізнавання мовлення приблизно в 2009—2011 роках, а також ДКЧП приблизно в 2003—2007 роках прискорили прогрес у восьми основних областях:
- Масштабування вгору/назовні та прискорення тренування та декодування ГНМ
- Послідовнісно розрізнювальне тренування
- Обробка ознак глибокими моделями з цілісним розумінням механізмів, що лежать в їхній основі
- Пристосування ГНМ та споріднених глибоких моделей
- [en] та передавальне навчання за допомогою ГНМ і споріднених глибоких моделей
- ЗНМ та як їх проєктувати, щоби найкращим чином використати предметні знання щодо мовлення
- РНМ та їхні численні варіанти з ДКЧП
- Інші типи глибоких моделей, включно з моделями на основі тензорів та комбінованими породжувально/розрізнювальними моделями.
Усі основні комерційні системи розпізнавання мовлення (наприклад, Microsoft Cortana, Xbox, [en], Amazon Alexa, Google Now, Apple Siri, Baidu та голосовий пошук [en], а також низка мовленнєвих продуктів [en] тощо) ґрунтуються на глибокому навчанні.
Розпізнавання зображень
Поширеним оцінковим набором для класифікування зображень є набір даних бази даних MNIST. Він складається з рукописних цифр і містить 60 000 навчальних та 10 000 випробувальних прикладів. Як і у випадку з TIMIT, його невеликий розмір дозволяє користувачам випробувати кілька конфігурацій. Доступний вичерпний перелік результатів на цьому наборі.
Розпізнавання зображень на основі глибокого навчання стало «надлюдським», даючи точніші результати, ніж люди, учасники змагання. Вперше це сталося 2011 року з розпізнаванням дорожніх знаків, а 2014 року з розпізнаванням облич людей.
Треновані глибоким навчанням транспортні засоби тепер інтерпретують камери кругового огляду. Іншим прикладом є новітній аналіз у лицевій дисморфології (англ. Facial Dysmorphology Novel Analysis, FDNA), який використовують для аналізу випадків вад розвитку людини, пов'язаних із великою базою даних генетичних синдромів.
Обробка образотворчого мистецтва
З прогресом, досягнутим у розпізнаванні зображень, тісно пов'язане все ширше застосування методик глибокого навчання до різноманітних завдань образотворчого мистецтва. ГНМ довели свою здатність, наприклад, у
- встановлюванні періоду стилю заданої картини
- [en] — вловлюванні стилю певного твору мистецтва та застосуванні його візуально приємним чином до довільної фотографії чи відео
- створенні вражаючих зображень на основі випадкових вхідних зорових полів.
Обробка природної мови
Нейронні мережі використовують для втілення мовних моделей з початку 2000-х років. ДКЧП допомогла покращити машинний переклад і моделювання мови.
Іншими ключовими методиками в цій галузі є негативне вибирання (англ. negative sampling) та вкладання слів. Вкладання слів, наприклад word2vec, можливо розглядати як шар подання в архітектурі глибокого навчання, який перетворює атомарне слово в подання розташування слова відносно інших слів у наборі даних; розташування подається як точка у векторному просторі. Використання вкладення слів як вхідного рівня РНМ дозволяє цій мережі аналізувати речення та фрази за допомогою ефективної композиційної векторної граматики. Композиційну векторну граматику можливо розглядати як [en] (ІКВГ, англ. probabilistic context free grammar, PCFG), втілену РНМ. Рекурсивні автокодувальники, збудовані поверх вкладень слів, можуть оцінювати схожість речень та виявляти перефразування. Глибокі нейронні архітектури забезпечують найкращі результати для аналізу складників, тональності, пошуку інформації, розуміння розмовної мови, машинного перекладу, контекстного зв'язування об'єктів, розпізнавання стилю написання, розпізнавання іменованих сутностей (класифікування лексем), класифікування тексту та інших.
Останні розробки узагальнюють вкладання слів до вкладання речень.
Перекладач Google використовує велику наскрізну мережу довгої короткочасної пам'яті (ДКЧП). Нейронний машинний переклад Google використовує метод машинного перекладу на основі прикладів, у якому система «вчиться на мільйонах прикладів». Він перекладає «цілі речення за раз, а не частини». Перекладач Google підтримує понад сто мов. Мережа кодує «семантику речення, а не просто запам'ятовує пофразові переклади». Перекладач Google використовує англійську як проміжну між більшістю мовних пар.
Пошук нових ліків та токсикологія
Значний відсоток ліків-кандидатів не отримує схвалення регуляторних органів. Ці невдачі спричинені недостатньою ефективністю (впливом на мішень), небажаними взаємодіями (впливами поза мішенню) або непередбаченими токсичними впливами. Дослідники вивчали використання глибокого навчання для передбачування [en], [en] та токсичних впливів хімічних речовин навколишнього середовища у поживних речовинах, побутових товарах і ліках.
AtomNet — це система глибокого навчання для раціонального конструювання ліків на основі структури. AtomNet використовували для передбачування новітніх біомолекул-кандидатів для мішеней таких захворювань як вірус Ебола та розсіяний склероз.
2017 року [en] було вперше використано для передбачування різних властивостей молекул у великому наборі токсикологічних даних. 2019 року породжувальні нейронні мережі було використано для створення молекул, які було перевірено експериментально від початку до кінця на мишах.
Управління відносинами з клієнтами
[en] використовували для наближування цінності можливих дій прямого маркетингу, визначених у термінах змінних RFM. Було показано, що ця функція оцінки цінності має природну інтерпретацію як пожиттєва цінність клієнта.
Рекомендаційні системи
Рекомендаційні системи використовували глибоке навчання для виділяння значущих ознак для моделі латентних чинників для музичних та журнальних рекомендацій на основі вмісту. Для навчання уподобань користувачів із кількох областей було застосовано багатоаспектне глибоке навчання (англ. multi-view deep learning). Ця модель використовує гібридний спільний та оснований на вмісті підхід, і покращує рекомендації в декількох завданнях.
Біоінформатика
Автокодувальну ШНМ використовували в біоінформатиці для передбачування анотацій генної онтології та зв'язків між генами й функціями.
У медичній інформатиці глибоке навчання використовували для передбачування якості сну на основі даних з носимих пристроїв та для передбачування ускладнень здоров'я з даних електронних медичних записів.
Оцінювання глибокими нейронними мережами
Глибокі нейронні мережі (ГНМ) можливо використовувати для оцінювання ентропії стохастичних процесів, їх називають нейронними оцінювачами спільної ентропії (НОСЕ, англ. Neural Joint Entropy Estimator, NJEE). Таке оцінювання дає уявлення про вплив випадкових змінних входу на незалежну випадкову змінну. На практиці, ГНМ тренують як класифікатор, який відображує вектор або матрицю входу X у розподіл імовірності виходу над можливими класами випадкової змінної Y за заданого входу X. Наприклад, у завданнях класифікування зображень НОСЕ відображує вектор значень кольорів пікселів у ймовірності над можливими класами зображень. На практиці розподіл імовірності Y отримують за допомогою шару Softmax із кількістю вузлів, яка дорівнює розміру абетки Y. НОСЕ використовує неперервно диференційовні передавальні функції, так що умови теореми про універсальне наближення виконуються. Показано, що цей метод забезпечує сильно слушну оцінку й перевершує інші методи в разі великих розмірів абетки.
Аналіз медичних зображень
Було показано, що глибоке навчання дає конкурентоспроможні результати в медичних застосуваннях, таких як класифікування ракових клітин, виявляння уражень, сегментування органів та покращування зображень. Сучасні інструменти глибокого навчання демонструють високу точність виявляння різних захворювань та доцільність використання їх фахівцями для підвищення ефективності діагностування.
Мобільна реклама
Знайти відповідну мобільну аудиторію для мобільної реклами завжди складно, оскільки необхідно розглянути та проаналізувати багато точок даних, перш ніж стане можливо створити цільовий сегмент і використати його для розміщення реклами на будь-якому рекламному сервері. Глибоке навчання використовували для інтерпретування великих, багатовимірних наборів рекламних даних. Під час циклу інтернет-реклами запит/подача/натискання збирають багато точок даних. Ця інформація може ставати основою машинного навчання для покращення обирання оголошень.
Відновлювання зображень
Глибоке навчання було успішно застосовано до [en], таких як знешумлювання, [en], [en] та кольоризування фільмів. До цих застосувань входять такі методи навчання як «Shrinkage Fields for Effective Image Restoration», який тренується на наборі зображень, та [en] (англ. Deep Image Prior), що тренується на зображенні, якому потрібне відновлення.
Виявляння фінансового шахрайства
Глибоке навчання успішно застосовують для виявляння фінансового шахрайства, ухилення від сплати податків та боротьби з відмиванням грошей.
Матеріалознавство
У листопаді 2023 року дослідники з Google DeepMind та Національної лабораторії ім. Лоуренса в Берклі оголосили, що вони розробили систему ШІ, відому як GNoME. Ця система зробила внесла внесок до матеріалознавства, відкривши понад 2 мільйони нових матеріалів за відносно короткий час. GNoME використовує методики глибокого навчання для ефективного дослідження потенційних структур матеріалів, досягаючи значного зростання у встановлюванні стабільних неорганічних кристалічних структур. Передбачення цієї системи були підтверджені за допомогою автономних роботизованих експериментів, продемонструвавши вражаючий рівень успішності в 71 %. Дані про нововідкриті матеріали доступні публічно через базу даних [en], надаючи дослідникам можливість встановлювати матеріали з бажаними властивостями для різних застосувань. Цей розвиток має наслідки для майбутнього наукових відкриттів та інтегрування ШІ в дослідження матеріалознавства, потенційно прискорюючи нововведення в матеріалах та знижуючи вартість розробки продуктів. Використання ШІ та глибокого навчання натякає на можливість мінімізації або виключення ручних лабораторних експериментів та дозволяє науковцям більше зосередитися на проєктуванні й аналізі унікальних сполук.
Військові
Міністерство оборони Сполучених Штатів застосовувало глибоке навчання, щоб тренувати роботів виконувати нові завдання через спостереження.
Диференціальні рівняння з частинними похідними
Фізичні нейронні мережі (англ. physics informed neural networks) використовували для розв'язування диференціальних рівнянь із частинними похідними як у прямих, так і в обернених задачах на основі даних. Одним із прикладів є відбудова потоку рідини, керована рівняннями Нав'є — Стокса. Використання фізичних нейронних мереж не потребує часто витратного породжування сітки, на яке спираються звичайні методи обчислювальної гідродинаміки.
Відбудова зображень
Відбудова зображень (англ. image reconstruction) — це відбудова зображень, що лежать в основі пов'язаних із зображеннями вимірювань. Декілька праць показали кращу та відмінну продуктивність методів глибокого навчання порівняно з аналітичними методами для різних застосувань, наприклад, спектральних та ультразвукових зображень.
Епігенетичний годинник
Епігенетичний годинник (англ. epigenetic clock) — це біохімічний тест, який можливо використовувати для вимірювання віку. Галкін зі співавт. використали глибокі нейронні мережі, щоби натренувати епігенетичний годинник старіння з безпрецедентною точністю, використавши понад 6000 зразків крові. Цей годинник використовує інформацію з 1000 CpG-острівців і передбачує людей з певними станами старше здорових контрольних груп: [en], лобово-скроневою деменцією, раком яєчника, ожирінням. Цей годинник старіння планувала випустити для загального використання в 2021 року дочірня компанія компанії [en], Deep Longevity.
Відношення до когнітивного розвитку людини та розвитку мозку
Глибоке навчання тісно пов'язане з класом теорій [en] (особливо нової кори), запропонованих когнітивними нейробіологами на початку 1990-х років. Ці теорії розвитку було втілено в обчислювальних моделях, що зробило їх попередниками систем глибокого навчання. Ці моделі розвитку поділяють таку властивість, що різні запропоновані динаміки навчання в мозку (наприклад, хвиля чинника росту нервів) підтримують самоорганізацію, дещо аналогічну нейронним мережам, які використовують у моделях глибокого навчання. Як і нова кора, нейронні мережі використовують ієрархію багатошарових фільтрів, у яких кожен шар розглядає інформацію з попереднього шару (або робочого середовища), а потім передає свій вихід (і, можливо, початковий вхід) іншим шарам. Цей процес видає самоорганізований стос вимірювальних перетворювачів, добре підлаштованих до їхнього робочого середовища. В описі 1995 року зазначено: «…мозок немовляти, здається, організовується під впливом хвиль так званих чинників росту… різні ділянки мозку стають з'єднаними послідовно, причому один шар тканини дозріває раніше іншого, і так далі, поки не дозріє весь мозок».
Було використано різноманітні підходи для дослідження правдоподібності моделей глибокого навчання з нейробіологічної точки зору. З одного боку, було запропоновано декілька варіантів алгоритму зворотного поширення з метою підвищення реалістичності його обробки. Інші дослідники стверджують, що до біологічної дійсності можуть бути ближчими форми некерованого глибокого навчання, такі як ті, що ґрунтуються на ієрархічних породжувальних моделях та глибоких мережах переконань. У цьому відношенні моделі породжувальних нейронних мереж пов'язували з нейробіологічними свідченнями обробки в корі головного мозку на основі вибірки.
Хоча систематичного порівняння між організацією людського мозку та нейронним кодуванням у глибоких мережах створено ще не було, було повідомлено про кілька аналогій. Наприклад, обчислення, які виконуються блоками глибокого навчання, можуть бути подібними до обчислень справжніх нейронів і нейронних популяцій. Подібним чином, подання, вироблені моделями глибокого навчання, подібні до тих, які вимірюють у зоровій системі приматів як на рівні окремого вузла, так і на рівні популяції.
Комерційна діяльність
Лабораторія ШІ Facebook виконує такі завдання як [en] іменами людей на них.
Google DeepMind Technologies розробила систему, здатну навчитися грати у відеоігри Atari, використовуючи як дані входу лише пікселі. 2015 року вони продемонстрували свою систему AlphaGo, яка навчилася грі Ґо настільки добре, що перемогла професійного гравця. Перекладач Google використовує нейронну мережу, щоби перекладати між понад 100 мовами.
2017 року було запущено Covariant.ai, зосереджений на інтегруванні глибокого навчання на заводах.
Станом на 2008 рік дослідники Техаського університету в Остіні (UT) розробили систему машинного навчання під назвою Training an Agent Manually via Evaluative Reinforcement (укр. ручне тренування агента через оцінювальне підкріплення), або TAMER, яка запропонувала нові методи для роботів та комп'ютерних програм, як вчитися виконувати завдання шляхом взаємодії з людиною-інструктором. Спершу розроблений як TAMER, новий алгоритм під назвою Deep TAMER було пізніше представлено 2018 року під час співпраці між Дослідницькою лабораторією армії США (ARL) та дослідниками UT. Deep TAMER використовував глибоке навчання, щоби забезпечити роботові здатність навчатися нових завдань шляхом спостерігання. Використовуючи Deep TAMER, робот навчався завдання разом із тренером-людиною, переглядаючи відеопотоки або спостерігаючи, як людина виконує завдання особисто. Пізніше робот відпрацьовував завдання за допомогою тренера, який давав відгуки, такі як «добра робота» та «погана робота».
Критика та коментарі
Глибоке навчання притягувало як критику, так і коментарі, у деяких випадках поза межами галузі інформатики.
Теорія
Основна критика стосується браку теорії навколо деяких методів. Навчання в найпоширеніших глибоких архітектурах втілено за допомогою добре зрозумілого градієнтного спуску. Проте теорія навколо цих алгоритмів, таких як контрастове розходження, не така ясна[] (наприклад: Він збігається? Якщо так, то як швидко? Що він наближує?). На методи глибокого навчання часто дивляться як на чорну скриньку, роблячи більшість підтверджень емпірично, а не теоретично.
Інші зазначають, що глибоке навчання слід розглядати як крок до втілення сильного ШІ, а не як всеохопне рішення. Незважаючи на потужність методів глибокого навчання, їм все ще бракує значної частини функціональності, необхідної, щоби втілити цю мету повністю. Психолог-дослідник [en] зазначив:
Насправді, глибоке навчання це лише частина більшого завдання створення розумних машин. Таким методикам бракує способів подання причинно-наслідкових зв'язків (…) вони не мають очевидних способів здійснення логічних висновків, і вони також ще далекі від поєднання абстрактних знань, таких як інформація про те, чим є об'єкти, для чого вони, і як їх зазвичай використовують. Найпотужніші системи ШІ, такі як Watson (…) використовують такі методики, як глибоке навчання, як лише один з елементів у дуже складному ансамблі методик, починаючи від статистичних методик баєсового висновування, і аж до дедуктивного міркування.
Серед подальших відсилань до тієї ідеї, що художня чутливість може бути притаманна відносно низьким рівням когнітивної ієрархії, опублікована низка графічних зображень внутрішніх станів глибоких (20—30 шарів) нейронних мереж, які намагаються розгледіти серед по суті випадкових даних зображення, на яких їх було треновано, демонструє візуальну привабливість: первинне повідомлення про це дослідження отримало набагато більше за 1000 коментарів і було предметом протягом деякого часу найвідвідуванішої статті на вебсайті Ґардіан.
Помилки
Деякі архітектури глибокого навчання демонструють проблематичну поведінку, наприклад, впевнене класифікування невпізнанних зображень як належних до знайомої категорії звичайних зображень (2014) та неправильне класифікування незначних збурень правильно класифікованих зображень (2013). Ґьорцель припустив, що така поведінка зумовлена обмеженнями у їхніх внутрішніх поданнях, і що ці обмеження перешкоджатимуть інтегруванню до гетерогенної багатокомпонентної архітектури загального штучного інтелекту (ЗШІ). Можливо, ці проблеми можна розв'язати за допомогою архітектур глибокого навчання, які внутрішньо утворюють стани, гомологічні розкладам граматики зображень спостережуваних об'єктів та подій. [en] (візуальної чи мовної) з тренувальних даних було би рівнозначним обмеженню системи міркуваннями здорового глузду, які оперують поняттями в термінах граматичних [en], і є основною метою як засвоєння мови людиною, так і штучного інтелекту (ШІ).
Кіберзагроза
Коли глибоке навчання переміщується з лабораторії у світ, дослідження та досвід показують вразливість штучних нейронних мереж до хакерів та обману. Визначаючи схеми, які ці системи використовують для функціювання, зловмисники можуть змінювати вхідні дані до ШНМ таким чином, що ШНМ знаходить відповідність, яку люди-спостерігачі не розпізнають. Наприклад, зловмисник може внести незначні зміни в зображення таким чином, що ШНМ знайде збіг, навіть якщо для людини зображення виглядає зовсім не схожим на ціль пошуку. Таке маніпулювання називають «змагальною атакою» (англ. "adversarial attack").
2016 року дослідники скористалися однією ШНМ, щоби, підкориговуючи зображення, методом спроб і помилок визначити, на чому зосереджується інша, й таким чином створити зображення, які вводили її в оману. Для людського ока змінені зображення нічим не відрізнялися. Інша група показала, що роздруківки підроблених зображень, які потім фотографували, успішно обманювали систему класифікування зображень. Одним із засобів захисту є зворотний пошук зображень, під час якого можливе підроблене зображення надсилається на сайт, наприклад TinEye, який потім може знайти інші його примірники. Одне із вдосконалень полягає у пошуку з використанням лише частин зображення, щоби встановити зображення, з яких цей фрагмент могло бути взято.
Інша група показала, що певні психоделічні видовища можуть змусити систему розпізнавання облич вважати звичайних людей знаменитостями, потенційно дозволяючи одній людині видавати себе за іншу. 2017 року дослідники додали наліпки до знаків заборони проїзду без зупинки, змусивши ШНМ класифікувати їх неправильно.
Проте ШНМ можливо додатково тренувати виявляти спроби обману, що потенційно веде до перегонів озброєнь між зловмисниками й захисниками, подібних до тих, які вже є основою індустрії захисту від зловмисних програм. ШНМ було навчено перемагати програмне забезпечення захисту від зловмисного програмного забезпечення на основі ШНМ шляхом повторюваних атак на захист зловмисним програмним забезпеченням, яке постійно змінювалося генетичним алгоритмом, доки воно не ошукало протизловмисне програмне забезпечення, зберігаючи свою здатність пошкоджувати ціль.
2016 року інша група продемонструвала, що певні звуки можуть змусити систему голосових команд Google Now відкрити певну веб-адресу, й висунула гіпотезу, що це може «послужити сходинкою для подальших атак (наприклад, відкривання вебсторінки, на якій розміщено зловмисне програмне забезпечення)».
В [en]» до тренувального набору системи машинного навчання систематично підкидають хибні дані, щоби завадити їй досягти майстерності.
Етика збирання даних
Цей розділ потребує додаткових для поліпшення його .(липень 2023) |
Більшість систем глибокого навчання покладаються на тренувальні та контрольні (англ. verification) дані, породжувані та/або розмічувані людьми. У філософії засобів масової інформації стверджують, що для цієї мети регулярно використовують не лише низькооплачувану [en] (наприклад, на Amazon Mechanical Turk), а й неявні форми людської [en], які часто не визнають як таку. Філософ [de] розрізняє п'ять типів «машинного заволодівання» людською мікропрацею для породжування тренувальних даних: (1) ігрофікація (вбудовування розмічування або обчислювальних завдань у потік гри), (2) «захоплювання та відстежування» (наприклад, CAPTCHA для розпізнавання зображень, або відстежування кліків на сторінках результатів пошуку Google), (3) використання соціальних мотивів (наприклад, позначування облич у Facebook для отримування позначених зображень обличчя), (4) розроблення інформації (наприклад, за допомогою пристроїв [en], таких як відстежувачі активності), та (5) [en].
Мюльхоф стверджує, що в більшості комерційних застосувань глибокого навчання для кінцевих користувачів, таких як [en], потреба в тренувальних даних після тренування ШНМ не зникає. Скоріше, існує постійна потреба в контрольних даних, створюваних людьми, щоби постійно калібрувати та уточнювати ШНМ. З цією метою Facebook запровадив функцію, що щойно користувачів автоматично розпізнано на зображенні, вони отримують сповіщення. Вони можуть обрати, чи хочуть вони бути публічно позначеними на цьому зображенні, чи повідомити Facebook, що на зображенні не вони. Цей інтерфейс користувача є механізмом породжування «постійного потоку контрольних даних» для подальшого тренування мережі в режимі реального часу. Як стверджує Мюльхоф, залучення людей-користувачів до породжування тренувальних та контрольних даних настільки типове для більшості комерційних застосувань глибокого навчання для кінцевих користувачів, що такі системи можна назвати «штучним інтелектом з участю людини» (англ. "human-aided artificial intelligence").
Див. також
- Застосування штучного інтелекту
- Порівняння програмного забезпечення глибокого навчання
- [en]
- [en]
- Мережа з відлунням стану
- [en]
- Перелік наборів даних для досліджень машинного навчання
- Резервуарне обчислення
- (Простір масштабів та глибоке навчання)
- Розріджене кодування
- [en]
Примітки
- Schulz, Hannes; Behnke, Sven (1 листопада 2012). Deep Learning. KI - Künstliche Intelligenz (англ.). 26 (4): 357—363. doi:10.1007/s13218-012-0198-z. ISSN 1610-1987. S2CID 220523562.
- Хома, Ю. В.; Бенч, А. Я. (2019). Порівняльний аналіз програмно-апаратного забезпечення алгоритмів глибокого навчання (PDF). Комп'ютерні системи і мережі (укр.). 1 (1): 97—102.
- Дорош, Н. Л.; Цаплюк, О. В. (3-5 листопада 2021). Розпізнавання зображень алгоритмом глибокого навчання (PDF). VII Міжнародна науково-технічна конференція «Комп'ютерне моделювання та оптимізація складних систем» (укр.). Дніпро: УДХТУ. с. 91—92.
- Бродкевич, В. М.; Ремесло, В. Я. (2018). Алгоритми машинного навчання (МН) та глибокого навчання (ГН) і їх використання в прикладних додатках (PDF). Міжнародний науковий журнал «Інтернаука» (укр.). Київ. 1 (11 (51)): 56—60. ISSN 2520-2057.
- LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep Learning. Nature (англ.). 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
- Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition (англ.). с. 3642—3649. arXiv:1202.2745. doi:10.1109/cvpr.2012.6248110. ISBN . S2CID 2161592.
- Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). ImageNet Classification with Deep Convolutional Neural Networks (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada (англ.). Архів (PDF) оригіналу за 10 січня 2017. Процитовано 24 травня 2017.
- Google's AlphaGo AI wins three-match series against the world's best Go player. TechCrunch (англ.). 25 травня 2017. Архів оригіналу за 17 червня 2018. Процитовано 17 червня 2018.
- Marblestone, Adam H.; Wayne, Greg; Kording, Konrad P. (2016). Toward an Integration of Deep Learning and Neuroscience. Frontiers in Computational Neuroscience (англ.). 10: 94. arXiv:1606.03813. Bibcode:2016arXiv160603813M. doi:10.3389/fncom.2016.00094. PMC 5021692. PMID 27683554. S2CID 1994856.
- Bengio, Yoshua; Lee, Dong-Hyun; Bornschein, Jorg; Mesnard, Thomas; Lin, Zhouhan (13 лютого 2015). Towards Biologically Plausible Deep Learning (англ.). arXiv:1502.04156 [cs.LG].
- Study urges caution when comparing neural networks to the brain. MIT News | Massachusetts Institute of Technology (англ.). 2 листопада 2022. Процитовано 6 грудня 2023.
- Deng, L.; Yu, D. (2014). Deep Learning: Methods and Applications (PDF). Foundations and Trends in Signal Processing (англ.). 7 (3–4): 1—199. doi:10.1561/2000000039. Архів (PDF) оригіналу за 14 березня 2016. Процитовано 18 жовтня 2014.
- Zhang, W. J.; Yang, G.; Ji, C.; Gupta, M. M. (2018). On Definition of Deep Learning. 2018 World Automation Congress (WAC) (англ.). с. 1—5. doi:10.23919/WAC.2018.8430387. ISBN . S2CID 51971897.
- Bengio, Yoshua (2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2 (1): 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. S2CID 207178999. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 3 вересня 2015.
- Bengio, Y.; Courville, A.; Vincent, P. (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 35 (8): 1798—1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
- LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (28 травня 2015). Deep learning. Nature (англ.). 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
- Schmidhuber, J. (2015). Deep Learning in Neural Networks: An Overview. Neural Networks (англ.). 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
- Shigeki, Sugiyama (12 квітня 2019). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (англ.). IGI Global. ISBN .
- Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Greedy layer-wise training of deep networks (PDF). Advances in neural information processing systems (англ.). с. 153—160. Архів (PDF) оригіналу за 20 жовтня 2019. Процитовано 6 жовтня 2019.
- Hinton, G.E. (2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
- Sahu, Santosh Kumar; Mokhade, Anil; Bokde, Neeraj Dhanraj (січень 2023). An Overview of Machine Learning, Deep Learning, and Reinforcement Learning-Based Techniques in Quantitative Finance: Recent Progress and Challenges. Applied Sciences (англ.). 13 (3): 1956. doi:10.3390/app13031956. ISSN 2076-3417.
- Cybenko (1989). Approximations by superpositions of sigmoidal functions (PDF). [en] (англ.). 2 (4): 303—314. doi:10.1007/bf02551274. S2CID 3958369. Архів оригіналу (PDF) за 10 October 2015.
- Hornik, Kurt (1991). Approximation Capabilities of Multilayer Feedforward Networks. Neural Networks (англ.). 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t. S2CID 7343126.
- Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation (англ.). Prentice Hall. ISBN .
- Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks (англ.). MIT Press. с. 48. ISBN .
- Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width [Архівовано 2019-02-13 у Wayback Machine.]. Neural Information Processing Systems, 6231-6239. (англ.)
- Orhan, A. E.; Ma, W. J. (2017). Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback. Nature Communications (англ.). 8 (1): 138. Bibcode:2017NatCo...8..138O. doi:10.1038/s41467-017-00181-8. PMC 5527101. PMID 28743932.
- Murphy, Kevin P. (24 серпня 2012). Machine Learning: A Probabilistic Perspective (англ.). MIT Press. ISBN .
- Fukushima, K. (1969). Visual feature extraction by a multilayered network of analog threshold elements. IEEE Transactions on Systems Science and Cybernetics (англ.). 5 (4): 322—333. doi:10.1109/TSSC.1969.300225.
- Sonoda, Sho; Murata, Noboru (2017). Neural network with unbounded activation functions is universal approximator. Applied and Computational Harmonic Analysis (англ.). 43 (2): 233—268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005. S2CID 12149203.
- Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF) (англ.). Springer. ISBN . Архів (PDF) оригіналу за 11 січня 2017. Процитовано 6 серпня 2017.
- Brush, Stephen G. (1967). History of the Lenz-Ising Model. Reviews of Modern Physics (англ.). 39 (4): 883—893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883.
- Amari, Shun-Ichi (1972). Learning patterns and pattern sequences by self-organizing nets of threshold elements. IEEE Transactions (англ.). C (21): 1197—1206.
- Schmidhuber, Jürgen (2022). Annotated History of Modern AI and Deep Learning (англ.). arXiv:2212.11279 [cs.NE].
- Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences (англ.). 79 (8): 2554—2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. PMC 346238. PMID 6953413.
- Tappert, Charles C. (2019). Who Is the Father of Deep Learning?. 2019 International Conference on Computational Science and Computational Intelligence (CSCI) (англ.). IEEE. с. 343—348. doi:10.1109/CSCI49370.2019.00067. ISBN . S2CID 216043128. Процитовано 31 травня 2021.
- Rosenblatt, Frank (1962). Principles of Neurodynamics (англ.). Spartan, New York.
- [en] (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online [Архівовано 2016-04-19 у Wayback Machine.] (англ.)
- Fradkov, Alexander L. (1 січня 2020). Early History of Machine Learning. IFAC-PapersOnLine. 21st IFAC World Congress (англ.). 53 (2): 1385—1390. doi:10.1016/j.ifacol.2020.12.1888. ISSN 2405-8963. S2CID 235081987.
- Ivakhnenko, A. G.; Lapa, V. G. (1967). Cybernetics and Forecasting Techniques (англ.). American Elsevier Publishing Co. ISBN .
- Ivakhnenko, Alexey (1971). Polynomial theory of complex systems (PDF). IEEE Transactions on Systems, Man, and Cybernetics (англ.). SMC-1 (4): 364—378. doi:10.1109/TSMC.1971.4308320. Архів (PDF) оригіналу за 29 серпня 2017. Процитовано 5 листопада 2019.
- Robbins, H.; Monro, S. (1951). A Stochastic Approximation Method. The Annals of Mathematical Statistics (англ.). 22 (3): 400. doi:10.1214/aoms/1177729586.
- (1967). A theory of adaptive pattern classifier. IEEE Transactions (англ.). EC (16): 279—307.
- Matthew Brand (1988) Machine and Brain Learning. University of Chicago Tutorial Studies Bachelor's Thesis, 1988. Reported at the Summer Linguistics Institute, Stanford University, 1987 (англ.)
- (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (фін.). University of Helsinki. с. 6—7.
- (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics (англ.). 16 (2): 146—160. doi:10.1007/bf01931367. S2CID 122357351.
- Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation? (PDF). Documenta Mathematica (англ.) (Extra Volume ISMP): 389—400. Архів оригіналу (PDF) за 21 липня 2017. Процитовано 11 червня 2017.
- Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (англ.). Open court publishing Company. ISBN .
- (1960). Gradient theory of optimal flight paths. ARS Journal (англ.). 30 (10): 947—954. doi:10.2514/8.5282.
- Werbos, Paul (1982). Applications of advances in nonlinear sensitivity analysis. System modeling and optimization (англ.). Springer. с. 762—770.
- Werbos, P. (1974). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University (англ.). Процитовано 12 червня 2017.
- Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation [Архівовано 2022-10-13 у Wayback Machine.]". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986. (англ.)
- Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybern. (англ.). 36 (4): 193—202. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
- Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 жовтня 2017). Searching for Activation Functions (англ.). arXiv:1710.05941 [cs.NE].
- Aizenberg, I.N.; Aizenberg, N.N.; Vandewalle, J. (2000). Multi-Valued and Universal Binary Neurons (англ.). Science & Business Media. doi:10.1007/978-1-4757-3115-6. ISBN . Процитовано 27 грудня 2023.
- Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005. (англ.)
- Zhang, Wei (1988). Shift-invariant pattern recognition neural network and its optical architecture. Proceedings of Annual Conference of the Japan Society of Applied Physics (англ.).
- Zhang, Wei (1990). Parallel distributed processing model with local space-invariant interconnections and its optical architecture. Applied Optics (англ.). 29 (32): 4790—7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID 20577468.
- LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989. (англ.)
- Zhang, Wei (1991). Image processing of human corneal endothelium based on a learning network. Applied Optics (англ.). 30 (29): 4211—7. Bibcode:1991ApOpt..30.4211Z. doi:10.1364/AO.30.004211. PMID 20706526.
- Zhang, Wei (1994). Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network. Medical Physics (англ.). 21 (4): 517—24. Bibcode:1994MedPh..21..517Z. doi:10.1118/1.597177. PMID 8058017.
- LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). Gradient-based learning applied to document recognition (PDF). Proceedings of the IEEE (англ.). 86 (11): 2278—2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. S2CID 14542261. Процитовано 7 жовтня 2016.
- Schmidhuber, Jürgen (1992). Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991) (PDF). Neural Computation (англ.). 4 (2): 234—242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () - Schmidhuber, Jürgen (1993). Habilitation Thesis (PDF) (нім.). Архів оригіналу (PDF) за 26 червня 2021.
- Schmidhuber, Jürgen (1 листопада 1992). Learning to control fast-weight memories: an alternative to recurrent nets. Neural Computation (англ.). 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
- Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021 (англ.). Springer. с. 9355—9366.
- Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz; Kaiser, Lukasz; Belanger, David; Colwell, Lucy; Weller, Adrian (2020). Rethinking Attention with Performers (англ.). arXiv:2009.14794 [cs.CL].
- Schmidhuber, Jürgen (1993). Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets. ICANN 1993 (англ.). Springer. с. 460—463.
- Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (12 червня 2017). Attention Is All You Need (англ.). arXiv:1706.03762 [cs.CL].
- Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (англ.). с. 38—45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
- He, Cheng (31 грудня 2021). Transformer in CV. Transformer in CV (англ.). Towards Data Science.
- Schmidhuber, Jürgen (1991). A possibility for implementing curiosity and boredom in model-building neural controllers. Proc. SAB'1991 (англ.). MIT Press/Bradford Books. с. 222—227.
- Schmidhuber, Jürgen (2010). Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010). IEEE Transactions on Autonomous Mental Development (англ.). 2 (3): 230—247. doi:10.1109/TAMD.2010.2056368. S2CID 234198.
- Schmidhuber, Jürgen (2020). Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991). Neural Networks (англ.). 127: 58—66. arXiv:1906.04493. doi:10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
- Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014) (англ.). с. 2672—2680. Архів (PDF) оригіналу за 22 листопада 2019. Процитовано 20 серпня 2019.
- Prepare, Don't Panic: Synthetic Media and Deepfakes (англ.). witness.org. Архів оригіналу за 2 грудня 2020. Процитовано 25 листопада 2020.
- GAN 2.0: NVIDIA's Hyperrealistic Face Generator. SyncedReview.com (англ.). 14 грудня 2018. Процитовано 3 жовтня 2019.
- Karras, T.; Aila, T.; Laine, S.; Lehtinen, J. (26 лютого 2018). Progressive Growing of GANs for Improved Quality, Stability, and Variation (англ.). arXiv:1710.10196 [cs.NE].
- S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". [Архівовано 2015-03-06 у Wayback Machine.]. Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991. (нім.)
- Hochreiter, S. та ін. (15 січня 2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. У Kolen, John F.; Kremer, Stefan C. (ред.). A Field Guide to Dynamical Recurrent Networks (англ.). John Wiley & Sons. ISBN .
- Hochreiter, Sepp; Schmidhuber, Jürgen (1 листопада 1997). Long Short-Term Memory. Neural Computation (англ.). 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
- Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). Learning to forget: Continual prediction with LSTM. 9th International Conference on Artificial Neural Networks: ICANN '99 (англ.). Т. 1999. с. 850—855. doi:10.1049/cp:19991218. ISBN .
- Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 травня 2015). Highway Networks (англ.). arXiv:1505.00387 [cs.LG].
- Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Jürgen (2015). Training Very Deep Networks. Advances in Neural Information Processing Systems (англ.). Curran Associates, Inc. 28: 2377—2385.
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (англ.). Las Vegas, NV, USA: IEEE. с. 770—778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN .
- de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (8 серпня 1994). An integrated Boolean neural network for pattern classification. Pattern Recognition Letters (англ.). 15 (8): 807—813. Bibcode:1994PaReL..15..807D. doi:10.1016/0167-8655(94)90009-4.
- Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26 травня 1995). The wake-sleep algorithm for unsupervised neural networks. Science (англ.). 268 (5214): 1158—1161. Bibcode:1995Sci...268.1158H. doi:10.1126/science.7761831. PMID 7761831. S2CID 871473.
- Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation. Lecture Notes in Computer Science (англ.). Т. 2766. Springer. doi:10.1007/b11963. ISBN . S2CID 1304548.
- Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1 серпня 1993). Hybrid neural network/hidden markov model systems for continuous speech recognition. International Journal of Pattern Recognition and Artificial Intelligence (англ.). 07 (4): 899—916. doi:10.1142/s0218001493000455. ISSN 0218-0014.
- (1992). A real-time recurrent error propagation network word recognition system. ICASSP. Icassp'92 (англ.): 617—620. ISBN . Архів оригіналу за 9 травня 2021. Процитовано 12 червня 2017.
- Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (March 1989). Phoneme recognition using time-delay neural networks (PDF). IEEE Transactions on Acoustics, Speech, and Signal Processing (англ.). 37 (3): 328—339. doi:10.1109/29.21701. hdl:10338.dmlcz/135496. ISSN 0096-3518. S2CID 9563026. Архів (PDF) оригіналу за 27 квітня 2021. Процитовано 24 вересня 2019.
- Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). Research Developments and Directions in Speech Recognition and Understanding, Part 1. IEEE Signal Processing Magazine (англ.). 26 (3): 75—80. Bibcode:2009ISPM...26...75B. doi:10.1109/msp.2009.932166. hdl:1721.1/51891. S2CID 357467.
- Bengio, Y. (1991). Artificial Neural Networks and their Application to Speech/Sequence Recognition (англ.). McGill University Ph.D. thesis. Архів оригіналу за 9 травня 2021. Процитовано 12 червня 2017.
- Deng, L.; Hassanein, K.; Elmasry, M. (1994). Analysis of correlation structure for a neural predictive model with applications to speech recognition. Neural Networks (англ.). 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2.
- Doddington, G.; Przybocki, M.; Martin, A.; Reynolds, D. (2000). The NIST speaker recognition evaluation ± Overview, methodology, systems, results, perspective. Speech Communication (англ.). 31 (2): 225—254. doi:10.1016/S0167-6393(99)00080-1.
- Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design. Speech Communication (англ.). 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1.
- Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available). ResearchGate (англ.). Архів оригіналу за 9 травня 2021. Процитовано 14 червня 2017.
- Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). Biologically Plausible Speech Recognition with LSTM Neural Nets (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland (англ.). с. 175—184. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 9 квітня 2016.
- ; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the International Conference on Machine Learning, ICML 2006 (англ.): 369—376. CiteSeerX 10.1.1.75.6306.
- Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting [Архівовано 2018-11-18 у Wayback Machine.]. Proceedings of ICANN (2), pp. 220–229. (англ.)
- Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (September 2015). Google voice search: faster and more accurate (англ.). Архів оригіналу за 9 березня 2016. Процитовано 9 квітня 2016.
- Yann LeCun (2016). Slides on Deep Learning Online [Архівовано 2016-04-23 у Wayback Machine.] (англ.)
- Hinton, Geoffrey E. (1 жовтня 2007). Learning multiple layers of representation. Trends in Cognitive Sciences (англ.). 11 (10): 428—434. doi:10.1016/j.tics.2007.09.004. ISSN 1364-6613. PMID 17921042. S2CID 15066318. Архів оригіналу за 11 жовтня 2013. Процитовано 12 червня 2017.
- Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). A Fast Learning Algorithm for Deep Belief Nets (PDF). [en] (англ.). 18 (7): 1527—1554. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950. Архів (PDF) оригіналу за 23 грудня 2015. Процитовано 20 липня 2011.
- (2012). Practical recommendations for gradient-based training of deep architectures (англ.). arXiv:1206.5533 [cs.LG].
- G. E. Hinton., "Learning multiple layers of representation". [Архівовано 2018-05-22 у Wayback Machine.]. Trends in Cognitive Sciences, 11, pp. 428–434, 2007. (англ.)
- Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; ; Kingsbury, B. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups. IEEE Signal Processing Magazine (англ.). 29 (6): 82—97. Bibcode:2012ISPM...29...82H. doi:10.1109/msp.2012.2205597. S2CID 206485943.
- Deng, L.; Hinton, G.; Kingsbury, B. (травень 2013). New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP) (PDF) (англ.). Microsoft. Архів (PDF) оригіналу за 26 вересня 2017. Процитовано 27 грудня 2023.
- Yu, D.; Deng, L. (2014). Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer) (англ.). Springer. ISBN .
- Deng receives prestigious IEEE Technical Achievement Award - Microsoft Research. Microsoft Research (англ.). 3 грудня 2015. Архів оригіналу за 16 березня 2018. Процитовано 16 березня 2018.
- Li, Deng (September 2014). Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'. Interspeech (англ.). Архів оригіналу за 26 вересня 2017. Процитовано 12 червня 2017.
- Yu, D.; Deng, L. (2010). Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition. NIPS Workshop on Deep Learning and Unsupervised Feature Learning (англ.). Архів оригіналу за 12 жовтня 2017. Процитовано 14 червня 2017.
- Seide, F.; Li, G.; Yu, D. (2011). Conversational speech transcription using context-dependent deep neural networks. Interspeech (англ.): 437—440. doi:10.21437/Interspeech.2011-169. S2CID 398770. Архів оригіналу за 12 жовтня 2017. Процитовано 14 червня 2017.
- Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1 травня 2013). Recent Advances in Deep Learning for Speech Research at Microsoft. Microsoft Research (англ.). Архів оригіналу за 12 жовтня 2017. Процитовано 14 червня 2017.
- Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). Non-linear frequency warping using constant-Q transformation for speech emotion recognition. 2021 International Conference on Computer Communication and Informatics (ICCCI) (англ.). с. 1—4. arXiv:2102.04029. doi:10.1109/ICCCI50826.2021.9402569. ISBN . S2CID 231846518.
- Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling (PDF) (англ.). Архів оригіналу (PDF) за 24 квітня 2018.
- Li, Xiangang; Wu, Xihong (2014). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition. arXiv:1410.4281 [cs.CL].
{{}}
: Проігноровано невідомий параметр|langyage=
() - Zen, Heiga; Sak, Hasim (2015). Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis (PDF). Google.com (англ.). ICASSP. с. 4470—4474. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
- Nvidia CEO bets big on deep learning and VR (англ.). Venture Beat. 5 квітня 2016. Архів оригіналу за 25 листопада 2020. Процитовано 21 квітня 2017.
- From not working to neural networking. The Economist (англ.). Архів оригіналу за 31 грудня 2016. Процитовано 26 серпня 2017.
- Oh, K.-S.; Jung, K. (2004). GPU implementation of neural networks. Pattern Recognition (англ.). 37 (6): 1311—1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013.
- "A Survey of Techniques for Optimizing Deep Learning on GPUs [Архівовано 2021-05-09 у Wayback Machine.]", S. Mittal and S. Vaishay, Journal of Systems Architecture, 2019 (англ.)
- Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing (англ.), архів оригіналу за 18 травня 2020, процитовано 14 лютого 2021
- Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 вересня 2010). Deep, Big, Simple Neural Nets for Handwritten Digit Recognition. Neural Computation (англ.). 22 (12): 3207—3220. arXiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
- Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (2009). Large-scale deep unsupervised learning using graphics processors. Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09 (англ.). New York, NY, USA: ACM. с. 873—880. CiteSeerX 10.1.1.154.372. doi:10.1145/1553374.1553486. ISBN . S2CID 392458.
- ; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). Efficient Processing of Deep Neural Networks: A Tutorial and Survey. arXiv:1703.09039 [cs.CV].
- Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 (англ.)
- Google Research Blog. The neural networks behind Google Voice transcription. August 11, 2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html (англ.)
- Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L.M.; Schmidhuber, J. (2011). Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF). International Joint Conference on Artificial Intelligence (англ.). doi:10.5591/978-1-57735-516-8/ijcai11-210. Архів (PDF) оригіналу за 29 вересня 2014. Процитовано 13 червня 2017.
- Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (ред.). Advances in Neural Information Processing Systems 25 (PDF) (англ.). Curran Associates, Inc. с. 2843—2851. Архів (PDF) оригіналу за 9 серпня 2017. Процитовано 13 червня 2017.
- Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Lecture Notes in Computer Science (англ.). Т. 7908, № Pt 2. с. 411—418. doi:10.1007/978-3-642-40763-5_51. ISBN . PMID 24579167.
- Simonyan, Karen; Andrew, Zisserman (2014). Very Deep Convolution Networks for Large Scale Image Recognition (англ.). arXiv:1409.1556 [cs.CV].
- Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). Show and Tell: A Neural Image Caption Generator (англ.). arXiv:1411.4555 [cs.CV]..
- Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). From Captions to Visual Concepts and Back (англ.). arXiv:1411.4952 [cs.CV]..
- Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (англ.). arXiv:1411.2539 [cs.LG]..
- Merck Molecular Activity Challenge. kaggle.com (англ.). Архів оригіналу за 16 липня 2020. Процитовано 16 липня 2020.
- Multi-task Neural Networks for QSAR Predictions | Data Science Association. www.datascienceassn.org (англ.). Архів оригіналу за 30 квітня 2017. Процитовано 14 червня 2017.
- "Toxicology in the 21st century Data Challenge" (англ.)
- NCATS Announces Tox21 Data Challenge Winners (англ.). Архів оригіналу за 8 вересня 2015. Процитовано 5 березня 2015.
- NCATS Announces Tox21 Data Challenge Winners (англ.). Архів оригіналу за 28 лютого 2015. Процитовано 5 березня 2015.
- Why Deep Learning Is Suddenly Changing Your Life. Fortune (англ.). 2016. Архів оригіналу за 14 квітня 2018. Процитовано 13 квітня 2018.
- Ferrie, C., & Kaiser, S. (2019). Neural Networks for Babies (англ.). Sourcebooks. ISBN .
- Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (January 2016). Mastering the game of Go with deep neural networks and tree search. Nature (англ.). 529 (7587): 484—489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 1476-4687. PMID 26819042. S2CID 515925.
- A Guide to Deep Learning and Neural Networks (англ.), архів оригіналу за 2 листопада 2020, процитовано 16 листопада 2020
- Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). Deep neural networks for object detection. Advances in Neural Information Processing Systems (англ.): 2553—2561. Архів оригіналу за 29 червня 2017. Процитовано 13 червня 2017.
- Rolnick, David; Tegmark, Max (2018). The power of deeper networks for expressing natural functions. International Conference on Learning Representations. ICLR 2018 (англ.). Архів оригіналу за 7 січня 2021. Процитовано 5 січня 2021.
- Hof, Robert D. Is Artificial Intelligence Finally Coming into Its Own?. MIT Technology Review (англ.). Архів оригіналу за 31 березня 2019. Процитовано 10 липня 2018.
- Gers, Felix A.; Schmidhuber, Jürgen (2001). LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages. IEEE Transactions on Neural Networks (англ.). 12 (6): 1333—1340. doi:10.1109/72.963769. PMID 18249962. S2CID 10192330. Архів оригіналу за 26 січня 2020. Процитовано 25 лютого 2020.
- Sutskever, L.; Vinyals, O.; Le, Q. (2014). Sequence to Sequence Learning with Neural Networks (PDF). Proc. NIPS (англ.). arXiv:1409.3215. Bibcode:2014arXiv1409.3215S. Архів (PDF) оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
- Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). Exploring the Limits of Language Modeling (англ.). arXiv:1602.02410 [cs.CL].
- Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). Multilingual Language Processing from Bytes (англ.). arXiv:1512.00103 [cs.CL].
- Mikolov, T. та ін. (2010). Recurrent neural network based language model (PDF). Interspeech (англ.): 1045—1048. doi:10.21437/Interspeech.2010-343. S2CID 17048224. Архів (PDF) оригіналу за 16 травня 2017. Процитовано 13 червня 2017.
- Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available). ResearchGate (англ.). Архів оригіналу за 9 травня 2021. Процитовано 13 червня 2017.
- LeCun, Y. та ін. (1998).
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Glibo ke navcha nnya 2 3 4 angl deep learning takozh inodi glibi nne navcha nnya ce pidmnozhina metodiv mashinnogo navchannya na osnovi shtuchnih nejronnih merezhah iz navchannyam podan Prikmetnik gliboke angl deep vkazuye na vikoristannya dekilkoh shariv u merezhi Vikoristovuvani metodi navchannya mozhut buti kerovanimi napivkerovanimi ta nekerovanimi 5 Podannya zobrazhen na kilkoh sharah abstrakciyi v glibokomu navchanni 1 Arhitekturi glibokogo navchannya taki yak gliboki nejronni merezhi gliboki merezhi perekonan rekurentni nejronni merezhi zgortkovi nejronni merezhi ta transformeri zastosovuvali v takih galuzyah yak komp yuterne bachennya rozpiznavannya movlennya obrobka prirodnoyi movi mashinnij pereklad bioinformatika konstruyuvannya likiv analiz medichnih zobrazhen en klimatologiya perevirka materialiv i programi nastilnih igor de voni dali rezultati porivnya nni a v deyakih vipadkah i krashi za produktivnist lyudskih ekspertiv 6 7 8 Shtuchni nejronni merezhi ShNM bulo nathnenno obrobkoyu informaciyi ta rozpodilenimi komunikacijnimi vuzlami v biologichnih sistemah ShNM mayut riznomanitni vidminnosti vid biologichnogo mozku Zokrema shtuchni nejronni merezhi zazvichaj statichni ta simvolni todi yak biologichnij mozok bilshosti zhivih organizmiv dinamichnij plastichnij ta analogovij 9 10 ShNM zagalom rozglyadayut yak nizkoyakisni modeli funkciyuvannya mozku 11 Zmist 1 Viznachennya 2 Oglyad 3 Interpretaciyi 4 Istoriya 4 1 Revolyuciya glibokogo navchannya 5 Nejronni merezhi 5 1 Gliboki nejronni merezhi 5 1 1 Vikliki 6 Aparatne zabezpechennya 7 Zastosuvannya 7 1 Avtomatichne rozpiznavannya movlennya 7 2 Rozpiznavannya zobrazhen 7 3 Obrobka obrazotvorchogo mistectva 7 4 Obrobka prirodnoyi movi 7 5 Poshuk novih likiv ta toksikologiya 7 6 Upravlinnya vidnosinami z kliyentami 7 7 Rekomendacijni sistemi 7 8 Bioinformatika 7 9 Ocinyuvannya glibokimi nejronnimi merezhami 7 10 Analiz medichnih zobrazhen 7 11 Mobilna reklama 7 12 Vidnovlyuvannya zobrazhen 7 13 Viyavlyannya finansovogo shahrajstva 7 14 Materialoznavstvo 7 15 Vijskovi 7 16 Diferencialni rivnyannya z chastinnimi pohidnimi 7 17 Vidbudova zobrazhen 7 18 Epigenetichnij godinnik 8 Vidnoshennya do kognitivnogo rozvitku lyudini ta rozvitku mozku 9 Komercijna diyalnist 10 Kritika ta komentari 10 1 Teoriya 10 2 Pomilki 10 3 Kiberzagroza 10 4 Etika zbirannya danih 11 Div takozh 12 Primitki 13 Literatura 14 Dodatkova literatura 14 1 Knigi 14 2 StattiViznachennyared Gliboke navchannya ce klas algoritmiv mashinnogo navchannya yakij 12 199 200 vikoristovuye dekilka shariv shobi postupovo vidilyati z sirogo vhodu oznaki shorazu vishih rivniv Napriklad pri obrobci zobrazhen nizhchi shari mozhut vstanovlyuvati konturi todi yak vishi shari mozhut vstanovlyuvati ponyattya dorechni dlya lyudini taki yak cifri literi chi oblichchya Yaksho poglyanuti na gliboke navchannya pid inshim kutom to gliboke navchannya poznachuye komp yuterne modelyuvannya abo avtomatizaciyu procesiv navchannya lyudinoyu vid dzherela napriklad zobrazhennya sobak do ob yekta navchannya sobak Tomu mayut sens ponyattya sformulovani yak glibshe angl deeper ta najglibshe angl deepest navchannya 13 Najglibshe navchannya poznachuye povnistyu avtomatichne navchannya vid dzherela do kincevogo ob yekta navchannya Glibshe navchannya vidtak poznachuye zmishanij proces navchannya proces navchannya lyudinoyu vid dzherela do navchenogo napivob yekta za yakim sliduye komp yuternij proces navchannya vid navchenogo lyudinoyu napivob yekta do kincevogo ob yekta navchannya Oglyadred Bilshist suchasnih modelej glibokogo navchannya gruntuyutsya na bagatosharovih shtuchnih nejronnih merezhah takih yak zgortkovi nejronni merezhi ta transformeri hocha do nih takozh mozhut nalezhati propozicijni formuli en ta latentni zminni organizovani posharovo v glibokih porodzhuvalnih modelyah taki yak vuzli v glibokih merezhah perekonan chi glibokih mashinah Bolcmana 14 U glibokomu navchanni kozhen riven vchitsya peretvoryuvati svoyi vhidni dani na desho abstraktnishe j skladnishe podannya U zastosunku dlya rozpiznavannya zobrazhen sirij vhid mozhe buti matriceyu pikseliv pershij shar podannya mozhe abstraguvatisya vid pikseliv i koduvati konturi drugij shar mozhe skladati ta koduvati yihnye roztashuvannya tretij shar mozhe koduvati nis ta ochi a chetvertij shar mozhe rozpiznavati sho zobrazhennya mistit oblichchya Vazhlivo sho proces glibokogo navchannya mozhe samostijno vchitisya yaki oznaki optimalno rozmistiti na yakomu rivni Ce ne zvilnyaye vid neobhidnosti ruchnogo nastroyuvannya napriklad rizna kilkist ta rozmiri shariv mozhut zabezpechuvati rizni stupeni abstrakciyi 15 16 Slovo gliboke u glibokomu navchanni poznachuye kilkist shariv kriz yaki peretvoryuyutsya dani Tochnishe sistemi glibokogo navchannya mayut znachnu glibinu shlyahu rozpodilu vnesku ShRV angl credit assignment path CAP ShRV ce lancyug peretvoren vid vhodu do vihodu ShRV opisuyut potencijno prichinno naslidkovi zv yazki mizh vhodom ta vihodom Dlya nejronnoyi merezhi pryamogo poshirennya glibina ShRV dorivnyuye glibini merezhi j ye kilkistyu prihovanih shariv plyus odin oskilki shar vihodu takozh parametrizovano Dlya rekurentnih nejronnih merezh u yakih signal mozhe poshiryuvatisya kriz shar ponad odin raz glibina ShRV potencijno neobmezhena 17 Nemaye universalno uzgodzhenogo porogu glibini yakij viddilyaye negliboke navchannya angl shallow learning vid glibokogo ale bilshist doslidnikiv shodyatsya na dumci sho gliboke navchannya vikoristovuye glibinu ShRV vishe 2 Bulo pokazano sho ShRV glibini 2 ce universalnij nablizhuvach u tomu sensi sho vin mozhe modelyuvati bud yaku funkciyu 18 Poza cim bilshe shariv ne dodayut nichogo do zdatnosti merezhi nablizhuvati funkciyi Gliboki modeli ShRV gt 2 zdatni vidilyati krashi oznaki nizh negliboki modeli j otzhe dodatkovi shari dopomagayut efektivno navchatisya oznak Arhitekturi glibokogo navchannya mozhlivo konstruyuvati posharovo zhadibnim metodom 19 Gliboke navchannya dopomagaye rozplutuvati ci abstrakciyi j obirati yaki oznaki pokrashuyut produktivnist 15 Dlya zavdan kerovanogo navchannya metodi glibokogo navchannya umozhlivlyuyut usuvannya konstruyuvannya oznak perevodyachi dani do kompaktnih promizhnih podan podibnih do golovnih komponent i vivodyat bagatosharovi strukturi yaki usuvayut nadmirnist u podanni Algoritmi glibokogo navchannya mozhlivo zastosovuvati do zavdan nekerovanogo navchannya Ce vazhliva perevaga oskilki nemicheni dani chislennishi za micheni Prikladami glibokih struktur yaki mozhlivo trenuvati nekerovanim chinom ye gliboki merezhi perekonan 15 20 Modeli mashinnogo navchannya teper vpravni u viyavlyanni skladnih shabloniv u danih finansovih rinkiv Zavdyaki perevagam shtuchnogo intelektu investori vse chastishe vikoristovuyut metodiki glibokogo navchannya dlya prognozuvannya ta analizu tendencij na fondovih ta valyutnih rinkah 21 Interpretaciyired Gliboki nejronni merezhi zazvichaj interpretuyut u terminah teoremi pro universalne nablizhennya 22 23 24 25 26 abo jmovirnisnogo visnovuvannya 27 12 15 17 28 Klasichna teorema pro universalne nablizhennya stosuyetsya zdatnosti nejronnoyi merezhi pryamogo poshirennya z odnim prihovanim sharom skinchennogo rozmiru nablizhuvati neperervni funkciyi 22 23 24 25 1989 roku Dzhordzh Cibenko opublikuvav pershe yiyi dovedennya dlya sigmoyidnih peredavalnih funkcij 22 a 1991 roku Kurt Gornik de uzagalniv jogo dlya bagatosharovih arhitektur pryamogo poshirennya 23 Neshodavnya robota takozh pokazala sho universalne nablizhennya takozh vikonuyetsya dlya neobmezhenih peredavalnih funkcij takih yak vipryamlenij linijnij vuzol angl rectified linear unit Kunihiko Fukusimi en 29 30 Teorema pro universalne nablizhennya dlya glibokih nejronnih merezh rozglyadaye propusknu spromozhnist merezh z obmezhenoyu shirinoyu dozvolyayuchi zrostati glibini Lu zi spivavt 26 doveli sho yaksho shirina glibokoyi nejronnoyi merezhi z peredavalnoyu funkciyeyu ReLU strogo bilsha za rozmirnist vhodu to cya merezha mozhe nablizhuvati bud yaku funkciyu integrovnu za Lebegom yaksho yiyi shirina mensha abo dorivnyuye rozmirnosti vhodu to gliboka nejronna merezha ne ye universalnim nablizhuvachem Imovirnisna interpretaciya 28 pohodit z galuzi mashinnogo navchannya Vona vidvodit providne misce visnovuvannyu 12 14 15 17 20 28 a takozh takim ponyattyam optimizaciyi yak trenuvannya ta viprobuvannya pov yazanim iz dopasovuvannyam ta uzagalnyuvannyam vidpovidno Konkretnishe jmovirnisna interpretaciya rozglyadaye nelinijnist peredavalnoyi funkciyi yak kumulyativnu funkciyu rozpodilu 28 Imovirnisna interpretaciya prizvela do zaprovadzhennya viklyuchennya angl dropout yak regulyarizatora v nejronnih merezhah Imovirnisnu interpretaciyu bulo zaprovadzheno doslidnikami vklyuchno z Gopfildom Uyidrou en ta Narendroyu en j populyarizovano v oglyadah takih yak vid Bishopa en 31 Istoriyared Isnuye dva tipi nejronnih merezh nejronni merezhi pryamogo poshirennya NMPP angl feedforward neural network FNN ta rekurentni nejronni merezhi RNM angl recurrent neural network RNN RNM mayut cikli u strukturi zv yaznosti a NMPP ni U 1920 h rokah Vilgelm Lenc en ta Ernst Izing en stvorili ta proanalizuvali model Izinga 32 yaka po suti ye arhitekturoyu RNM sho ne navchayetsya i skladayetsya z nejronopodibnih porogovih elementiv 1972 roku Shunichi Amari en zrobiv cyu arhitekturu adaptivnoyu 33 34 Jogo navchannya RNM populyarizuvav Dzhon Gopfild 1982 roku 35 RNM stali centralnimi dlya rozpiznavannya movlennya ta obrobki movi en Charlz Tappert pishe sho Frenk Rozenblat rozrobiv ta doslidiv usi osnovni skladovi suchasnih sistem glibokogo navchannya 36 posilayuchis na knigu Rozenblata 1962 roku 37 yakoyu bulo zaprovadzheno bagatosharovij perceptron BShP iz 3 sharami sharom vhodu prihovanim sharom iz vipadkovimi vagami sho ne navchalisya ta sharom vihodu Vin takozh zaproponuvav varianti vklyuchno z versiyeyu z chotirohsharovimi perceptronami de ostanni dva shari mayut vagi sho navchayutsya j otzhe spravzhnij bagatosharovij perceptron 37 section 16 Krim togo termin gliboke navchannya zaproponuvala 1986 roku Rina Dehter en 38 hocha istoriya jogo poyavi shozhe nabagato skladnisha 39 Pershij zagalnij robochij algoritm navchannya dlya glibokih bagatosharovih perceptroniv pryamogo poshirennya kerovanim navchannyam opublikuvali 1967 roku Oleksij Ivahnenko ta Valentin Lapa 40 U statti 1971 roku opisano gliboku merezhu z vosmi shariv trenovanu metodom grupovogo urahuvannya argumentiv 41 Pershij bagatosharovij perceptron glibokogo navchannya trenovanij stohastichnim gradiyentnim spuskom 42 opublikuvav 1967 roku Shunichi Amari en 43 34 U komp yuternih eksperimentah provedenih uchnem Amari Sajto p yatisharovij BShP iz dvoma zminnimi sharami navchivsya vnutrishnih podan dlya klasifikuvannya nelinijno rozdilnih klasiv obraziv 34 1987 roku Metyu Brend povidomiv sho shiroki 12 sharovi nelinijni perceptroni mozhlivo povnistyu naskrizno trenuvati vidtvoryuvati logichni funkciyi netrivialnoyi glibini lancyuga za dopomogoyu gradiyentnogo spusku na nevelikih paketah vipadkovih vibirok vhodiv vihodiv ale zrobiv visnovok sho chas trenuvannya na togochasnomu obladnanni domegaflopnih komp yuterah zrobiv cyu metodiku nepraktichnoyu ta zaproponuvav vikoristovuvati nezminni vipadkovi ranni shari yak hesh vhodu dlya yedinogo zminyuvanogo rivnya 44 Natomist podalshi rozrobki aparatnogo zabezpechennya ta pidlashtovuvannya giperparametriv zrobili naskriznij stohastichnij gradiyentnij spusk nini perevazhnoyu metodikoyu trenuvannya 1970 roku Seppo Linnainmaa en opublikuvav zvorotnij rezhim avtomatichnogo diferenciyuvannya diskretno zv yazanih merezh vkladenih diferencijovnih funkcij 45 46 47 Vin stav vidomim yak zvorotne poshirennya 17 Ce efektivne zastosuvannya lancyugovogo pravila vivedenogo Gotfridom Vilgelmom Lejbnicem 1673 roku 48 do merezh diferencijovnih vuzliv 34 Terminologiyu zvorotno poshiryuvani pohibki angl back propagating errors faktichno zaprovadiv 1962 roku Rozenblat 37 34 ale vin ne znav yak ce vtiliti hocha Genri Kelli en vzhe 1960 roku mav bezperervnogo poperednika zvorotnogo poshirennya 49 v kontekst teoriyi keruvannya 34 1982 roku Pol Verbos en zastosuvav zvorotne poshirennya do BShP u sposib yakij stav standartnim 50 51 34 1985 roku Devid Rumelhart zi spivavt opublikuvali eksperimentalnij analiz ciyeyi metodiki 52 Ahitekturi glibokogo navchannya dlya zgortkovih nejronnih merezh ZNM angl convolutional neural networks CNN zi zgortkovimi sharami ta sharami znizhennya rozdilnosti pochalisya z neokognitrona zaproponovanogo Kunihiko Fukusimoyu en 1980 roku 53 1969 roku vin takozh zaproponuvav peredavalnu funkciyu ReLU angl rectified linear unit vipryamlenij linijnij vuzol 29 34 Cej vipryamlyach angl rectifier stav najpopulyarnishoyu peredavalnoyu funkciyeyu dlya ZNM ta glibokogo navchannya v cilomu 54 ZNM stali vazhlivim instrumentom komp yuternogo bachennya Termin gliboke navchannya angl Deep Learning u spilnoti mashinnogo navchannya zaprovadila 1986 roku Rina Dehter en 38 a dlya shtuchnih nejronnih merezh Igor Ajzenberg z kolegami u 2000 roku v konteksti bulevih en porogovih nejroniv 55 56 1988 roku Vej Chzhan zi spivavt zastosuvali algoritm zvorotnogo poshirennya do zgortkovoyi nejronnoyi merezhi sproshenij neokognitron zi zgortkovimi vzayemozv yazkami mizh sharami oznak zobrazhennya ta ostannim povnoz yednanim sharom dlya rozpiznavannya abetki Voni takozh zaproponuvali vtilennya ZNM z optichnoyu obchislyuvalnoyu sistemoyu 57 58 1989 roku Yan LeKun zi spivavt zastosuvali zvorotne poshirennya do ZNM z metoyu rozpiznavannya rukopisnih poshtovih indeksiv u poshti Hoch cej algoritm i pracyuvav trenuvannya vimagalo 3 dniv 59 Zgodom Vej Chzhan zi spivavt vidozminili svoyu model vidalivshi ostannij povnoz yednanij shar ta zastosuvavshi yiyi dlya segmentuvannya ob yektiv medichnih zobrazhen 1991 roku 60 ta dlya viyavlyannya raku molochnoyi zalozi na mamogramah 1994 roku 61 LeNet 5 1998 7 rivnevu ZNM vid Yana LeKuna zi spivavt 62 sho klasifikuye cifri kilka bankiv zastosuvali dlya rozpiznavannya rukopisnih chisel na chekah ocifrovanih u zobrazhennya 32 32 pikseli U 1980 h rokah zvorotne poshirennya ne pracyuvalo dobre dlya glibokogo navchannya z dovgimi shlyahami rozpodilu vnesku Shobi podolati cyu problemu Yurgen Shmidhuber 1992 zaproponuvav iyerarhiyu RNM poperedno trenovanih porivnevo samokerovanim navchannyam 63 Vona vikoristovuye peredbachuvalne koduvannya en dlya navchannya vnutrishnih podan u kilkoh samoorganizovanih masshtabah chasu Ce mozhe istotno polegshuvati nastupne gliboke navchannya Cyu iyerarhiyu RNM mozhlivo sklasti angl collapse v yedinu RNM shlyahom distilyuvannya en fragmentuvalnoyi angl chunker merezhi vishogo rivnya do avtomatizatornoyi angl automatizer merezhi nizhchogo rivnya 63 34 1993 roku fragmentuvalnik rozv yazav zavdannya glibokogo navchannya chiya glibina perevishuvala 1000 64 1992 roku Yurgen Shmidhuber takozh opublikuvav alternativu RNM angl alternative to RNNs 65 yaku zaraz nazivayut linijnim transformerom angl linear Transformer abo transformerom z linearizovanoyu samouvagoyu 66 67 34 za vinyatkom operatora normuvannya Vin navchayetsya vnutrishnih centriv uvagi angl internal spotlights of attention 68 povilna nejronna merezha pryamogo poshirennya vchitsya za dopomogoyu gradiyentnogo spusku keruvati shvidkimi vagami inshoyi nejronnoyi merezhi cherez tenzorni dobutki samoporodzhuvanih shabloniv zbudzhennya FROM i TO zvanih teper klyuchem angl key ta znachennyam angl value samouvagi 66 Ce vidobrazhennya uvagi angl attention mapping shvidkih vag zastosovuyut do shablonu zapitu Suchasnij transformer angl Transformer zaproponuvali Ashish Vasvani zi spivavt u svoyij praci 2017 roku Uvaga ce vse sho vam treba 69 Vin poyednuye ce z operatorom softmax ta proyekcijnoyu matriceyu 34 Transformeri vse chastishe obirayut za model dlya obrobki prirodnoyi movi 70 Bagato suchasnih velikih movnih modelej takih yak ChatGPT GPT 4 ta BERT vikoristovuyut same jogo Transformeri takozh vse chastishe vikoristovuyut u komp yuternim bachenni 71 1991 roku Yurgen Shmidhuber takozh opublikuvav zmagalni nejronni merezhi angl adversarial neural networks yaki zmagayutsya mizh soboyu u formi antagonistichnoyi gri de vigrash odniyeyi merezhi ye prograshem inshoyi 72 73 74 Persha merezha ye porodzhuvalnoyu modellyu yaka modelyuye rozpodil imovirnosti nad obrazami na vihodi Druga merezha navchayetsya gradiyentnim spuskom peredbachuvati reakciyu seredovisha na ci obrazi Ce bulo nazvano shtuchnoyu cikavistyu angl artificial curiosity 2014 roku cej princip vikoristali u porodzhuvalnij zmagalnij merezhi angl generative adversarial network GAN Yan Gudfelou zi spivavt 75 Tut reakciya navkolishnogo seredovisha dorivnyuye 1 abo 0 zalezhno vid togo chi nalezhit vihid pershoyi merezhi do zadanogo naboru Ce mozhlivo vikoristovuvati dlya stvorennya realistichnih dipfejkiv 76 Vidminnoyi yakosti zobrazhennya dosyagla StyleGAN en Nvidia 2018 77 na osnovi progresivnoyi porodzhuvalnoyi zmagalnoyi merezhi angl Progressive GAN Tero Karrasa zi spivavt 78 Tut porodzhuvach viroshuyetsya vid malogo do velikogo piramidnim chinom Diplomnu pracyu Zeppa Hohrajtera en 1991 79 jogo kerivnik Shmidhuber nazvav odnim iz najvazhlivishih dokumentiv v istoriyi mashinnogo navchannya 34 Vin ne lishe viprobuvav nejronnij stiskach istoriyi 63 ale j viyaviv ta proanalizuvav problemu znikannya gradiyenta 79 80 Dlya rozv yazannya ciyeyi problemi Hohrajter zaproponuvav rekurentni zalishkovi zv yazki Ce prizvelo do poyavi metodu glibokogo navchannya zvanogo dovgoyu korotkochasnoyu pam yattyu DKChP angl long short term memory LSTM opublikovanogo 1997 roku 81 Rekurentni nejronni merezhi DKChP mozhut navchatisya zadach duzhe glibokogo navchannya 17 z dovgimi shlyahami rozpodilu vnesku yaki vimagayut spogadiv pro podiyi sho vidbulisya tisyachi diskretnih chasovih krokiv tomu Standartnu DKChP angl vanilla LSTM iz zabuvalnim ventilem zaproponuvali 1999 roku Feliks Gers en Shmidhuber ta Fred Kammins 82 DKChP stala najcitovanishoyu nejronnoyu merezheyu XX stolittya 34 2015 roku Rupesh Kumar Shrivastava Klaus Greff i Shmidhuber vikoristali princip DKChP dlya stvorennya magistralevoyi merezhi nejronnoyi merezhi pryamogo poshirennya z sotnyami shariv nabagato glibshoyi za poperedni 83 84 7 misyaciv potomu Kajmin He Syan yu Chzhan Shaocin Ren ta Czyan Sun vigrali zmagannya ImageNet en 2015 iz vidkritoventilnim abo bezventilnim variantom magistralevoyi merezhi nazvanim za lishkovoyu nejronnoyu merezheyu angl Residual neural network 85 Vona stala najcitovanishoyu nejronnoyu merezheyu XXI stolittya 34 1994 roku Andre de Karvalo razom z Majkom Fejrgerstom ta Devidom Bissetom opublikuvali eksperimentalni rezultati bagatosharovoyi bulevoyi nejronnoyi merezhi vidomoyi takozh yak bezvagova nejronna merezha angl weightless neural network skladenoyi z 3 sharovogo samoorganizovuvanogo nejromerezhnogo modulya vidilyannya oznak angl SOFT z bagatosharovim klasifikacijnim nejromerezhnim modulem angl GSN za nim trenovanih nezalezhno Kozhen shar u moduli vidilyannya oznak vidilyav oznaki vse vishoyi skladnosti vidnosno poperednogo sharu 86 1995 roku Brendan Frej en prodemonstruvav mozhlivist natrenuvati protyagom dvoh dniv merezhu iz shesti povnoz yednanih shariv ta kilkoh soten prihovanih vuzliv vikoristovuyuchi algoritm nespannya snu en rozroblenij spilno z Piterom Dayanom en ta Gintonom 87 Z 1997 roku Sven Benke rozshiriv iyerarhichnij zgortkovij pidhid pryamogo poshirennya u nejronnij piramidi abstrakcij angl Neural Abstraction Pyramid 88 za dopomogoyu bichnih ta zvorotnih z yednan shobi gnuchko vklyuchati kontekst u rishennya ta iterativno rozv yazuvati lokalni neodnoznachnosti U 1990 h i 2000 h rokah populyarnistyu koristuvalisya prostishi modeli yaki vikoristovuyut skonstrujovani vruchnu oznaki dlya konkretnih zavdan taki yak filtri Gabora angl Gabor filters ta opornovektorni mashini OVM angl support vector machines SVM cherez obchislyuvalnu vitratnist shtuchnih nejronnih merezh ShNM ta brak rozuminnya togo yak mozok splitaye svoyi biologichni merezhi Yak negliboke tak i gliboke navchannya napriklad rekurentni merezhi ShNM dlya rozpiznavannya movlennya doslidzhuvali protyagom bagatoh rokiv 89 90 91 Ci metodi nikoli ne perevershuvali tehnologiyu neodnoridnih vnutrishno ruchnih gaussovih sumishevih modelej en prihovanih markovskih modelej GSM PMM angl GMM HMM na osnovi porodzhuvalnih modelej movlennya trenovanih rozriznyuvalno 92 Bulo proanalizovano osnovni trudnoshi vklyuchno zi znikannyam gradiyenta 79 j slabkoyu strukturoyu chasovoyi korelyaciyi v nejronnih peredbachuvalnih modelyah 93 94 Dodatkovimi trudnoshami buli brak trenuvalnih danih ta obmezhena obchislyuvalna potuzhnist Bilshist doslidnikiv rozpiznavannya movlennya vidijshli vid nejronnih merezh shobi zajmatisya porodzhuvalnim modelyuvannyam Vinyatkom buv SRI International naprikinci 1990 h rokiv Finansovanij agenciyami uryadu SShA ANB ta DARPA SRI vivchav gliboki nejronni merezhi v rozpiznavanni movlennya ta movcya Komanda rozpiznavannya movciv na choli z Larri Gekom en povidomila pro znachnij uspih iz glibokimi nejronnimi merezhami v obrobci movlennya na ocinyuvanni rozpiznavannya movciv Nacionalnogo institutu standartiv i tehnologij 1998 roku 95 Potim gliboku nejronnu merezhu SRI bulo rozgornuto v Nuance Verifier sho stalo pershim velikim promislovim zastosuvannyam glibokogo navchannya 96 Princip pidnesennya sirih oznak nad ruchnoyu optimizaciyeyu bulo vpershe uspishno doslidzheno v arhitekturi glibokogo avtokoduvalnika na sirij spektrogrami abo oznakah linijnogo bloka filtriv en naprikinci 1990 h 96 sho pokazalo jogo perevagu nad mel kepstrovimi oznakami yaki mistyat etapi nezminnogo peretvorennya zi spektrogram Siri oznaki movlennya hvileformi zgodom dali chudovi velikomasshtabni rezultati 97 Rozpiznavannya movlennya perejnyala DKChP 2003 roku DKChP na pevnih zavdannyah pochala konkuruvati z tradicijnimi rozpiznavachami movlennya 98 2006 roku Aleks Grejvs en Santyago Fernandes Faustino Gomes ta Shmidhuber poyednali yiyi z nejromerezhnoyu chasovoyu klasifikaciyeyu en NChK angl connectionist temporal classification CTC 99 u stekah RNM DKChP 100 2015 roku v rozpiznavanni movlennya Google yak bulo povidomleno stavsya rizkij 49 vidsotkovij stribok produktivnosti zavdyaki NChK trenovanij DKChP yaku voni zrobili dostupnoyu cherez golosovij poshuk Google 101 Vpliv glibokogo navchannya v promislovosti pochavsya na pochatku 2000 h rokiv koli za slovami Yana LeKuna ZNM vzhe obroblyali priblizno vid 10 do 20 usih chekiv vipisuvanih u SShA 102 Promislovi zastosuvannya glibokogo navchannya dlya shirokomasshtabnogo rozpiznavannya movlennya pochalisya priblizno 2010 roku 2006 roku publikaciyi Dzheffa Gintona Ruslana Salahutdinova en Osindero ta Tee en 103 104 105 pokazali yak bagatosharovu nejronnu merezhu pryamogo poshirennya mozhlivo efektivno poperedno trenuvati shar za sharom rozglyadayuchi kozhen shar po cherzi yak nekerovanu obmezhenu mashinu Bolcmana a potim tonko nalashtovuvati yiyi za dopomogoyu kerovanogo zvorotnogo poshirennya 106 Ci praci stosuvalisya navchannya dlya glibokih merezh perekonan Motivom seminaru NIPS 2009 roku z glibokogo navchannya dlya rozpiznavannya movlennya buli obmezhennya glibokih porodzhuvalnih modelej movlennya ta mozhlivist togo sho zavdyaki potuzhnishomu aparatnomu zabezpechennyu ta velikomasshtabnim naboram danih gliboki nejronni merezhi GNM angl deep neural nets DNN mozhut stati praktichnimi Vvazhalosya sho poperednye trenuvannya GNM za dopomogoyu porodzhuvalnih modelej glibokih merezh perekonan GMP angl deep belief nets DBN dozvolit podolati osnovni trudnoshi nejronnih merezh Prote bulo viyavleno sho zamina poperednogo trenuvannya velikimi obsyagami trenuvalnih danih dlya bezposerednogo zvorotnogo poshirennya pri vikoristanni GNM z velikimi kontekstnozalezhnimi sharami vihodu prizvodit do rizko nizhchih rivniv pohibok nizh u gaussovoyi sumishevoyi modeli GSM prihovanoyi markovskoyi modeli PMM sho bula na rivni ostannih dosyagnen na toj chas a takozh nizh u peredovishih sistem na osnovi porodzhuvalnih modelej 107 Priroda pohibok rozpiznavannya porodzhuvanih cimi dvoma tipami sistem harakterno vidriznyalasya 108 proponuyuchi tehnichni proyasnennya shodo togo yak integruvati gliboke navchannya v nayavnu visokoefektivnu sistemu dekoduvannya movlennya v realnomu chasi rozgornutu vsima osnovnimi sistemami rozpiznavannya movlennya 12 109 110 Analiz blizko 2009 2010 rokiv porivnyuyuchi GSM ta inshi porodzhuvalni modeli movlennya z modelyami GNM stimulyuvav pershi promislovi investiciyi v gliboke navchannya dlya rozpiznavannya movlennya 108 Cej analiz bulo zrobleno z porivnyannoyu produktivnistyu menshe 1 5 u rivni pohibok mizh rozriznyuvalnimi GNM ta porodzhuvalnimi modelyami 107 108 111 2010 roku doslidniki rozshirili gliboke navchannya vid TIMIT en do velikoslovnikovogo rozpiznavannya movlennya zastosuvavshi veliki shari vihodu GNM na osnovi kontekstnozalezhnih staniv PMM pobudovanih za dopomogoyu derev rishen 112 113 114 109 Gliboke navchannya ye chastinoyu sistem rivnya ostannih dosyagnen u riznih disciplinah zokrema v komp yuternim bachenni ta avtomatichnomu rozpiznavanni movlennya ARM angl automatic speech recognition ASR Rezultati na zagalnovzhivanih ocinyuvalnih naborah takih yak TIMIT en ARM ta MNIST klasifikuvannya zobrazhen a takozh nizci zavdan velikoslovnikovogo rozpiznavannya movlennya postijno pokrashuvalisya 107 115 Zgortkovi nejronni merezhi ZNM dlya ARM bulo vitisneno NChK 99 dlya DKChP 81 101 116 117 118 ale v komp yuternim bachenni voni uspishnishi Udoskonalennya aparatnogo zabezpechennya vidnovilo interes do glibokogo navchannya 2009 roku Nvidia brala uchast u tak zvanomu velikomu vibuhu glibokogo navchannya oskilki nejronni merezhi glibokogo navchannya trenuvali za dopomogoyu grafichnih procesoriv GP Nvidia 119 Togo roku Endryu In viznachiv sho GP mozhut pidvishiti shvidkist sistem glibokogo navchannya priblizno v 100 raziv 120 Zokrema GP dobre pidhodyat dlya matrichnih vektornih obchislen zadiyanih u mashinnomu navchanni 121 122 123 GP priskoryuyut algoritmi trenuvannya na poryadki skorochuyuchi chas roboti z tizhniv do dniv 124 125 Krim togo dlya efektivnoyi obrobki modelej glibokogo navchannya mozhlivo vikoristovuvati specializovane obladnannya ta optimizaciyu algoritmiv 126 Revolyuciya glibokogo navchannyared nbsp Yak gliboke navchannya ye pidmnozhinoyu mashinnogo navchannya i yak mashinne navchannya ye pidmnozhinoyu shtuchnogo intelektu ShI Naprikinci 2000 h gliboke navchannya pochalo perevershuvati inshi metodi v zmagannyah z mashinnogo navchannya 2009 roku dovga korotkochasna pam yat natrenovana nejromerezhnoyu chasovoyu klasifikaciyeyu en Aleks Grejvs en Santyago Fernandes Faustino Gomes ta Yurgen Shmidhuber 2006 99 stala pershoyu RNM yaka vigrala konkursi z rozpiznavannya obraziv vigravshi tri zmagannya z rozpiznavannya neperervnogo rukopisnogo tekstu 127 17 Piznishe Google vikoristala natrenovanu NChK DKChP dlya rozpiznavannya movlennya na smartfoni 128 101 Znachnij vpliv na rozpiznavannya zobrazhen abo ob yektiv vidchuvavsya z 2011 po 2012 roki Hocha ZNM trenovani zvorotnim poshirennyam isnuvali desyatilittyami 57 59 a vtilennya NM na GP rokami 121 vklyuchno iz ZNM 123 17 dlya progresu v komp yuternim bachenni znadobilisya shvidshi vtilennya ZNM na grafichnih procesorah 2011 roku DanNet 129 6 Dena Chireshana Uli Meyera Dzhonatana Maski Luki Mariyi Gambardeli en ta Yurgena Shmidhubera vpershe dosyagla nadlyudskih rezultativ u zmaganni z rozpiznavannya vizualnih obraziv perevershivshi tradicijni metodi vtrichi 17 Takozh 2011 roku DanNet vigrala konkurs iz kitajskogo rukopisnogo tekstu ICDAR a v travni 2012 roku peremogla v konkursi z segmentuvannya zobrazhen ISBI 130 Do 2011 roku ZNM ne vidigravali velikoyi roli na konferenciyah z komp yuternogo bachennya ale v chervni 2012 roku publikaciya Chireshana zi spivavt na providnij konferenciyi CVPR 6 pokazala yak maksimizuvalno agreguvalni ZNM na GP mozhut znachno pokrashuvati bagato etalonnih rekordiv u bachenni U veresni 2012 roku DanNet takozh vigrala konkurs ICPR z analizu velikih medichnih zobrazhen dlya viyavlyannya raku a nastupnogo roku takozh i MICCAI Grand Challenge na tu zh temu 131 U zhovtni 2012 roku podibna AlexNet Oleksiya Krizhevskogo Illi Suckevera ta Dzhefri Gintona 7 vigrala velikomasshtabne zmagannya ImageNet en zi znachnim vidrivom vid neglibokih metodiv mashinnogo navchannya Merezha VGG 16 Karena Simonyana ta Endryu Zissermana en 132 she bilshe znizila riven pohibok i vigrala konkurs ImageNet 2014 sliduyuchi podibnij tendenciyi u shirokomasshtabnomu rozpiznavanni movlennya Potim klasifikuvannya zobrazhen bulo rozshireno do skladnishogo zavdannya porodzhuvannya opisiv en pidpisiv dlya zobrazhen chasto yak poyednannya ZNM ta DKChP 133 134 135 2012 roku komanda pid provodom Dzhordzha Dalya vigrala konkurs Merck Molecular Activity Challenge vikoristovuyuchi bagatozadachni gliboki nejronni merezhi dlya peredbachuvannya biomolekulyarnoyi misheni en odnogo preparatu 136 137 2014 roku grupa Zeppa Hohrajtera en vikoristala gliboke navchannya dlya viyavlyannya necilovih i toksichnih vpliviv himichnih rechovin navkolishnogo seredovisha u pozhivnih rechovinah pobutovih tovarah i likah i vigrala Tox21 Data Challenge NIH FDA ta NCATS en 138 139 140 2016 roku Rodzher Parloff zaznachiv revolyuciyu glibokogo navchannya yaka zminila galuz ShI 141 U berezni 2019 roku Joshua Benzhio en Dzhefri Gintona ta Yana LeKuna bulo nagorodzheno premiyeyu Tyuringa za konceptualni ta inzhenerni prorivi yaki zrobili gliboki nejronni merezhi kritichno vazhlivoyu skladovoyu obchislyuvalnoyi tehniki Nejronni merezhired Dokladnishe Shtuchna nejronna merezha nbsp Sproshenij priklad trenuvannya nejronnoyi merezhi u viyavlyanni ob yektiv Merezhu trenuyut kilkoma zobrazhennyami vidomimi yak zobrazhennya morskih zirok ta morskih yizhakiv sho korelyuyut z vuzlami yaki podayut vizualni oznaki Morski zirki vidpovidayut teksturi v kruzhechok ta zirkovomu konturovi todi yak bilshist morskih yizhakiv vidpovidayut smugastij teksturi j ovalnij formi Prote priklad morskogo yizhaka z teksturoyu v kruzhechok stvoryuye slabko zvazhenu pov yazanist mizh nimi nbsp Nastupnij zapusk merezhi na vhidnomu zobrazhenni livoruch 142 Merezha pravilno viyavlyaye morsku zirku Prote slabko zvazhena pov yazanist mizh teksturoyu v kruzhechok i morskim yizhakom takozh peredaye slabkij signal ostannomu vid odnogo z dvoh promizhnih vuzliv Krim togo cherepashka yaku ne bulo vklyucheno do trenuvannya daye slabkij signal dlya ovalnoyi formi sho takozh prizvodit do slabkogo signalu dlya vihodu morskogo yizhaka Ci slabki signali mozhut prizvesti do hibno pozitivnogo rezultatu dlya morskogo yizhaka V realnosti teksturi ta konturi ne bude podano poodinokimi vuzlami a radshe pov yazanimi vagovimi shablonami dekilkoh vuzliv Shtu chni nejro nni mere zhi ShNM angl artificial neural networks ANN abo konnekcioni stski siste mi angl connectionist systems ce obchislyuvalni sistemi nathnenni biologichnimi nejronnimi merezhami yaki skladayut mozok tvarin Taki sistemi vchatsya postupovo vdoskonalyuyut svoyi zdibnosti vikonuvati zavdannya rozglyadayuchi prikladi yak pravilo bez programuvannya pid konkretne zavdannya Napriklad u rozpiznavanni zobrazhen voni mozhut navchitisya vstanovlyuvati zobrazhennya yaki mistyat kotiv analizuyuchi prikladi zobrazhen micheni en vruchnu yak kit chi kota nema i vikoristovuyuchi rezultati cogo analizu dlya vstanovlyuvannya kotiv na inshih zobrazhennyah Voni znajshli najbilshe vikoristannya v zastosuvannyah yaki vazhko visloviti za dopomogoyu tradicijnogo komp yuternogo algoritmu z vikoristannyam programuvannya na osnovi pravil ShNM gruntuyetsya na sukupnosti z yednanih vuzliv zvanih shtuchnimi nejronami analogichno biologichnim nejronam u biologichnomu mozku Kozhne z yednannya sinaps mizh nejronami mozhe peredavati signal inshomu nejronovi Prijmalnij postsinaptichnij nejron mozhe obroblyati signal i a potim signalizuvati podalshim nejronam Nejroni mozhut mati stan yak pravilo podanij dijsnimi chislami zazvichaj mizh 0 ta 1 Nejroni ta sinapsi takozh mozhut mati vagu yaka zminyuyetsya v miru navchannya sho mozhe zbilshuvati abo zmenshuvati silu signalu yakij voni nadsilayut dali Yak pravilo nejroni vporyadkovano v shari angl layers Rizni shari mozhut vikonuvati rizni tipi peretvoren nad svoyimi vhodami Signali prohodyat vid pershogo sharu sharu vhodu do ostannogo sharu sharu vihodu mozhlivo pislya prohodzhennya sharami dekilka raziv Pochatkova meta nejromerezhnogo pidhodu polyagala u rozv yazuvanni zadach takim zhe chinom yak ce robiv bi lyudskij mozok Z chasom uvaga zoseredilasya na vidpovidnosti konkretnim rozumovim zdibnostyam sho prizvelo do vidhilen vid biologiyi takih yak zvorotne poshirennya abo peredavannya informaciyi u zvorotnomu napryamku z pidlashtovuvannyam merezhi vidobrazhuvati cyu informaciyu Nejronni merezhi vikoristovuvali dlya riznomanitnih zavdan vklyuchno z komp yuternim bachennyam rozpiznavannyam movlennya mashinnim perekladom filtruvannyam socialnih merezh groyu v nastilni ta videoigri en ta medichnoyu diagnostikoyu Stanom na 2017 rik nejronni merezhi zazvichaj mayut vid kilkoh tisyach do kilkoh miljoniv vuzliv ta miljoni z yednan Nezvazhayuchi na te sho ce chislo na kilka poryadkiv menshe za chislo nejroniv u mozku lyudini ci merezhi mozhut vikonuvati bagato zavdan na rivni sho perevershuye lyudskij napriklad rozpiznavati oblichchya abo grati v Go 143 Gliboki nejronni merezhired Gliboka nejronna merezha GNM angl deep neural network DNN ce shtuchna nejronna merezha ShNM iz kilkoma sharami mizh sharami vhodu ta vihodu 14 17 Isnuyut rizni tipi nejronnih merezh ale voni zavzhdi skladayutsya z tih zhe skladovih nejroniv sinapsiv vag zmishen ta funkcij 144 Ci skladovi v cilomu funkcionuyut u sposib sho imituye funkciyuvannya lyudskogo mozku i yih yak i bud yakij inshij algoritm MN mozhlivo trenuvati dzherelo Napriklad GNM trenovana rozpiznavati porodi sobak prohoditime zadanim zobrazhennyam j obchislyuvatime jmovirnist togo sho zobrazhenij sobaka nalezhit do pevnoyi porodi Koristuvach mozhe pereglyadati rezultati j obirati yaki jmovirnosti merezha povinna vidobrazhuvati vishe pevnogo porogu tosho j povertati zaproponovanu mitku Kozhnu matematichnu manipulyaciyu yak taku vvazhayut sharom dzherelo i skladni GNM mayut bagato shariv zvidsi j nazva gliboki merezhi GNM mozhut modelyuvati skladni nelinijni zv yazki Arhitekturi GNM porodzhuyut kompozicijni modeli de ob yekt virazhayut bagatosharovoyu kompoziciyeyu primitiviv 145 Dodatkovi shari dozvolyayut kombinuvati oznaki z nizhchih shariv potencijno modelyuyuchi skladni dani menshoyu kilkistyu vuzliv nizh negliboki merezhi z podibnoyu produktivnistyu 14 Napriklad bulo dovedeno sho rozridzheni bagatovimirni mnogochleni eksponencijno legshe nablizhuvati za dopomogoyu GNM nizh za dopomogoyu neglibokih merezh 146 Do glibokih arhitektur nalezhat bagato variantiv kilkoh osnovnih pidhodiv Kozhna arhitektura dosyagla uspihu v pevnih oblastyah Ne zavzhdi mozhlivo porivnyati produktivnist kilkoh arhitektur yaksho yih ocinyuvali ne na odnakovih naborah danih GNM yak pravilo ye merezhami pryamogo pryamogo poshirennya v yakih dani prohodyat z sharu vhodu do sharu vihodu bez povernennya nazad Spochatku GNM stvoryuye kartu virtualnih nejroniv i priznachuye zv yazkam mizh nimi vipadkovi chislovi znachennya abo vagi Vagi ta vhodi peremnozhuyutsya j povertayut rezultat mizh 0 ta 1 Yaksho merezha ne rozpiznaye pevnij obraz tochno algoritm pidlashtovuye ci vagi 147 Takim chinom algoritm mozhe robiti pevni parametri vplivovishimi doki ne viznachit pravilnu matematichnu operaciyu dlya povnoyi obrobki danih Rekurentni nejronni merezhi RNM angl recurrent neural networks RNN v yakih dani mozhut prostuvati v bud yakomu napryamku vikoristovuyut dlya takih zastosuvan yak modelyuvannya movi 148 149 150 151 152 Dlya cogo vikoristannya osoblivo efektivna dovga korotkochasna pam yat 81 153 Zgortkovi gliboki nejronni merezhi ZNM angl convolutional deep neural networks CNN vikoristovuyut u komp yuternim bachenni 154 ZNM takozh zastosovuvali do akustichnogo modelyuvannya en dlya avtomatichnogo rozpiznavannya movlennya ARM angl automatic speech recognition ASR 155 Viklikired Yak i z ShNM pri nayivnomu trenuvanni GNM mozhe vinikati bagato problem Dvoma poshirenimi problemami ye perenavchannya ta obchislyuvalnij chas GNM shilni do perenavchannya cherez dodani shari abstraguvannya yaki dozvolyayut yim modelyuvati ridkisni zalezhnosti v trenuvalnih danih Dlya borotbi z perenavchannyam pid chas trenuvannya mozhlivo zastosovuvati metodi regulyarizaciyi taki yak obrizannya vuzliv angl unit pruning Ivahnenka 41 oslablennya vag en angl weight decay ℓ 2 displaystyle ell 2 nbsp regulyarizaciya ta rozridzhenist angl sparsity ℓ 1 displaystyle ell 1 nbsp regulyarizaciya 156 Alternativna regulyarizaciya viklyuchennyam angl dropout vipadkovim chinom viluchaye vuzli z prihovanih shariv pid chas trenuvannya Ce dopomagaye viklyuchati ridkisni zalezhnosti 157 Nareshti dani mozhlivo dopovnyuvati za dopomogoyu takih metodiv yak obrizannya ta obertannya shobi menshi trenuvalni nabori mozhlivo bulo zbilshiti v rozmiri zadlya zmenshennya jmovirnosti perenavchannya 158 GNM povinni vrahovuvati bagato parametriv trenuvannya takih yak rozmir kilkist shariv i kilkist vuzliv na shar temp navchannya ta pervinni vagi Prochisuvannya prostoru parametriv dlya otrimannya optimalnih znachen mozhe buti nedosyazhnim cherez chasovi ta obchislyuvalni vitrati Obchislennya priskoryuyut rizni tryuki taki yak paketuvannya angl batching obchislennya gradiyenta na kilkoh trenuvalnih prikladah odnochasno zamist obchislennya na okremih 159 Veliki obroblyuvalni mozhlivosti bagatoyadernih arhitektur takih yak grafichni procesori ta Intel Xeon Phi prizveli do znachnogo priskorennya trenuvannya cherez pridatnist takih obroblyuvalnih arhitektur dlya matrichnih ta vektornih obchislen 160 161 Krim togo inzheneri mozhut shukati inshi tipi nejronnih merezh iz prostishimi ta zbizhnishimi algoritmami trenuvannya Odnim iz takih vidiv nejronnih merezh ye AKMM artikulyacijnij kontroler mozochkovoyi modeli en angl cerebellar model articulation controller CMAC Vin ne potrebuye tempiv navchannya ta uvipadkovlenih pervinnih vag Mozhe buti garantovano zbizhnist jogo procesu trenuvannya za odin krok iz novim paketom danih a obchislyuvalna skladnist algoritmu trenuvannya linijna shodo kilkosti zadiyanih nejroniv 162 163 Aparatne zabezpechennyared Z 2010 h rokiv progres yak v algoritmah mashinnogo navchannya tak i v komp yuternomu aparatnomu zabezpechenni prizviv do efektivnishih metodiv trenuvannya glibokih nejronnih merezh yaki mistyat bagato shariv nelinijnih prihovanih vuzliv i duzhe velikij shar vihodu 164 Do 2019 roku grafichni procesori GP chasto zi specialnimi vdoskonalennyami dlya ShI vitisnili CP yak perevazhnij metod trenuvannya velikomasshtabnogo komercijnogo hmarnogo ShI 165 OpenAI ocinila aparatni obchislennya yaki vikoristovuvali v najbilshih proyektah glibokogo navchannya vid AlexNet 2012 i do AlphaZero 2017 i viyavila 300 000 kratne zbilshennya neobhidnogo obsyagu obchislen iz tendenciyeyu podvoyennya chasu kozhni 3 4 misyaci 166 167 Dlya priskorennya algoritmiv glibokogo navchannya bulo rozrobleno specialni elektronni shemi zvani procesorami glibokogo navchannya Do procesoriv glibokogo navchannya nalezhat nejronni procesori NP angl neural processing units NPU u mobilnih telefonah Huawei 168 ta serverah hmarnih obchislen taki yak tenzorni procesori TP angl tensor processing units TPU u Google Cloud Platform 169 Cerebras Systems en takozh stvorila specialnu sistemu dlya obrobki velikih modelej glibokogo navchannya CS 2 sho gruntuyetsya na najbilshomu procesori v galuzi drugomu pokolinni Wafer Scale Engine WSE 2 170 171 Atomarno tonki napivprovidniki vvazhayut perspektivnimi dlya energoefektivnogo aparatnogo zabezpechennya glibokogo navchannya de odnu j tu zh bazovu strukturu pristroyu vikoristovuyut yak dlya logichnih operacij tak i dlya zberigannya danih 2020 roku Marega zi spivavt opublikuvali eksperimenti z aktivnokanalnim materialom velikoyi ploshi dlya rozrobki pristroyiv i shem z logichnoyu pam yattyu na osnovi polovih tranzistoriv z plavni m zatvorom angl floating gate field effect transistors FGFET 172 2021 roku J Feldmann zi spivavt zaproponuvali integrovanij fotonnij aparatnij priskoryuvach dlya paralelnoyi zgortkovoyi obrobki 173 Avtori vidilyayut dvi klyuchovi perevagi integrovanoyi fotoniki nad yiyi elektronnimi analogami 1 masivna paralelna peredacha danih cherez multipleksuvannya za dovzhinoyu hvili v poyednanni z chastotnimi grebincyami ta 2 nadzvichajno visoka shvidkist modulyaciyi danih 173 Yihnya sistema mozhe vikonuvati triljoni operacij mnozhennya dodavannya za sekundu sho vkazuye na potencial integrovanoyi fotoniki u zastosuvannyah shtuchnogo intelektu yaki potrebuyut velikih danih 173 Zastosuvannyared Avtomatichne rozpiznavannya movlennyared Dokladnishe Rozpiznavannya movlennya Velikomasshtabne avtomatichne rozpiznavannya movlennya ce pershij i najperekonlivishij uspishnij priklad glibokogo navchannya RNM DKChP mozhut navchatisya zavdan duzhe glibokogo navchannya 17 do yakih nalezhat bagatosekundni intervali sho mistyat movlennyevi podiyi rozdileni tisyachami diskretnih chasovih krokiv de odin chasovij krok vidpovidaye priblizno 10 ms DKChP iz zabuvalnimi ventilyami 153 na pevnih zavdannyah konkurentospromozhni z tradicijnimi rozpiznavachami movlennya 98 Pochatkovij uspih u rozpiznavanni movlennya gruntuvavsya na nevelikih zavdannyah rozpiznavannya na osnovi TIMIT en Cej nabir danih mistit 630 nosiyiv vosmi osnovnih dialektiv amerikanskoyi anglijskoyi de kozhen chitaye 10 rechen 174 Jogo nevelikij rozmir dozvolyaye viprobuvati bagato konfiguracij Sho she vazhlivishe zavdannya TIMIT stosuyetsya rozpiznavannya fonalnih en poslidovnostej yake na vidminu vid rozpiznavannya poslidovnosti sliv dozvolyaye vikoristovuvati slabki fonobigramni movni modeli Ce dozvolyaye legshe analizuvati silu aspektiv akustichnogo modelyuvannya rozpiznavannya movlennya Chastotu pohibki navedenu nizhche vklyuchno z cimi rannimi rezultatami vimiryanu u vidsotkah rivniv fonalnih pohibok RFP angl phone error rates PER bulo uzagalneno z 1991 roku Metod Vidsotok rivnya fonalnoyi pohibki RFP RNM z vipadkovimi pochatkovimi znachennyami 175 26 1 Bayesova trifonalna GSM en PMM 25 6 Model prihovanoyi trayektoriyi porodzhuvalna 24 8 Monofonalna GNM z vipadkovimi pochatkovimi znachennyami 23 4 Monofonalna GMP GNM 22 4 Trifonalna GSM en PMM z navchannyam PMVI 21 7 Monofonalna GMP GNM na bloci filtriv en 20 7 Zgortkova GNM 176 20 0 Zgortkova GNM z riznoridnim agreguvannyam 18 7 Ansambleva GNM ZNM RNM 177 18 3 Dvospryamovana DKChP 17 8 Iyerarhichna zgortkova gliboka maksimumovihodova merezha 178 16 5 Debyut GNM dlya rozpiznavannya movciv naprikinci 1990 h ta rozpiznavannya movlennya priblizno v 2009 2011 rokah a takozh DKChP priblizno v 2003 2007 rokah priskorili progres u vosmi osnovnih oblastyah 12 111 109 Masshtabuvannya vgoru nazovni ta priskorennya trenuvannya ta dekoduvannya GNM Poslidovnisno rozriznyuvalne trenuvannya Obrobka oznak glibokimi modelyami z cilisnim rozuminnyam mehanizmiv sho lezhat v yihnij osnovi Pristosuvannya GNM ta sporidnenih glibokih modelej Bagatozadachne en ta peredavalne navchannya za dopomogoyu GNM i sporidnenih glibokih modelej ZNM ta yak yih proyektuvati shobi najkrashim chinom vikoristati predmetni znannya shodo movlennya RNM ta yihni chislenni varianti z DKChP Inshi tipi glibokih modelej vklyuchno z modelyami na osnovi tenzoriv ta kombinovanimi porodzhuvalno rozriznyuvalnimi modelyami Usi osnovni komercijni sistemi rozpiznavannya movlennya napriklad Microsoft Cortana Xbox Perekladach Skype en Amazon Alexa Google Now Apple Siri Baidu ta golosovij poshuk iFlytek en a takozh nizka movlennyevih produktiv Nuance en tosho gruntuyutsya na glibokomu navchanni 12 179 180 Rozpiznavannya zobrazhenred Dokladnishe Komp yuterne bachennya Poshirenim ocinkovim naborom dlya klasifikuvannya zobrazhen ye nabir danih bazi danih MNIST Vin skladayetsya z rukopisnih cifr i mistit 60 000 navchalnih ta 10 000 viprobuvalnih prikladiv Yak i u vipadku z TIMIT jogo nevelikij rozmir dozvolyaye koristuvacham viprobuvati kilka konfiguracij Dostupnij vicherpnij perelik rezultativ na comu nabori 181 Rozpiznavannya zobrazhen na osnovi glibokogo navchannya stalo nadlyudskim dayuchi tochnishi rezultati nizh lyudi uchasniki zmagannya Vpershe ce stalosya 2011 roku z rozpiznavannyam dorozhnih znakiv a 2014 roku z rozpiznavannyam oblich lyudej 182 183 Trenovani glibokim navchannyam transportni zasobi teper interpretuyut kameri krugovogo oglyadu 184 Inshim prikladom ye novitnij analiz u licevij dismorfologiyi angl Facial Dysmorphology Novel Analysis FDNA yakij vikoristovuyut dlya analizu vipadkiv vad rozvitku lyudini pov yazanih iz velikoyu bazoyu danih genetichnih sindromiv Obrobka obrazotvorchogo mistectvared nbsp Vizualna hudozhnya obrobka Dzhimmi Vejlza u Franciyi u stili Kriku Munka zastosovanogo za dopomogoyu nejronnogo perenesennya stilyu Z progresom dosyagnutim u rozpiznavanni zobrazhen tisno pov yazane vse shirshe zastosuvannya metodik glibokogo navchannya do riznomanitnih zavdan obrazotvorchogo mistectva GNM doveli svoyu zdatnist napriklad u vstanovlyuvanni periodu stilyu zadanoyi kartini 185 186 Nejronnim perenesenni stilyu en vlovlyuvanni stilyu pevnogo tvoru mistectva ta zastosuvanni jogo vizualno priyemnim chinom do dovilnoyi fotografiyi chi video 185 186 stvorenni vrazhayuchih zobrazhen na osnovi vipadkovih vhidnih zorovih poliv 185 186 Obrobka prirodnoyi movired Dokladnishe Obrobka prirodnoyi movi Nejronni merezhi vikoristovuyut dlya vtilennya movnih modelej z pochatku 2000 h rokiv 148 DKChP dopomogla pokrashiti mashinnij pereklad i modelyuvannya movi 149 150 151 Inshimi klyuchovimi metodikami v cij galuzi ye negativne vibirannya angl negative sampling 187 ta vkladannya sliv Vkladannya sliv napriklad word2vec mozhlivo rozglyadati yak shar podannya v arhitekturi glibokogo navchannya yakij peretvoryuye atomarne slovo v podannya roztashuvannya slova vidnosno inshih sliv u nabori danih roztashuvannya podayetsya yak tochka u vektornomu prostori Vikoristannya vkladennya sliv yak vhidnogo rivnya RNM dozvolyaye cij merezhi analizuvati rechennya ta frazi za dopomogoyu efektivnoyi kompozicijnoyi vektornoyi gramatiki Kompozicijnu vektornu gramatiku mozhlivo rozglyadati yak imovirnisnu kontekstnovilnu gramatiku en IKVG angl probabilistic context free grammar PCFG vtilenu RNM 188 Rekursivni avtokoduvalniki zbudovani poverh vkladen sliv mozhut ocinyuvati shozhist rechen ta viyavlyati perefrazuvannya 188 Gliboki nejronni arhitekturi zabezpechuyut najkrashi rezultati dlya analizu skladnikiv 189 tonalnosti 190 poshuku informaciyi 191 192 rozuminnya rozmovnoyi movi 193 mashinnogo perekladu 149 194 kontekstnogo zv yazuvannya ob yektiv 194 rozpiznavannya stilyu napisannya 195 rozpiznavannya imenovanih sutnostej klasifikuvannya leksem 196 klasifikuvannya tekstu ta inshih 197 Ostanni rozrobki uzagalnyuyut vkladannya sliv do vkladannya rechen Perekladach Google vikoristovuye veliku naskriznu merezhu dovgoyi korotkochasnoyi pam yati DKChP 198 199 200 201 Nejronnij mashinnij pereklad Google vikoristovuye metod mashinnogo perekladu na osnovi prikladiv u yakomu sistema vchitsya na miljonah prikladiv 199 Vin perekladaye cili rechennya za raz a ne chastini Perekladach Google pidtrimuye ponad sto mov 199 Merezha koduye semantiku rechennya a ne prosto zapam yatovuye pofrazovi perekladi 199 202 Perekladach Google vikoristovuye anglijsku yak promizhnu mizh bilshistyu movnih par 202 Poshuk novih likiv ta toksikologiyared Dokladnishe Poshuk novih likiv en ta Toksikologiya Znachnij vidsotok likiv kandidativ ne otrimuye shvalennya regulyatornih organiv Ci nevdachi sprichineni nedostatnoyu efektivnistyu vplivom na mishen nebazhanimi vzayemodiyami vplivami poza mishennyu abo neperedbachenimi toksichnimi vplivami 203 204 Doslidniki vivchali vikoristannya glibokogo navchannya dlya peredbachuvannya biomolekulyarnih mishenej en 136 137 antimishenej en ta toksichnih vpliviv himichnih rechovin navkolishnogo seredovisha u pozhivnih rechovinah pobutovih tovarah i likah 138 139 140 AtomNet ce sistema glibokogo navchannya dlya racionalnogo konstruyuvannya likiv na osnovi strukturi 205 AtomNet vikoristovuvali dlya peredbachuvannya novitnih biomolekul kandidativ dlya mishenej takih zahvoryuvan yak virus Ebola 206 ta rozsiyanij skleroz 207 206 2017 roku grafovi nejronni merezhi en bulo vpershe vikoristano dlya peredbachuvannya riznih vlastivostej molekul u velikomu nabori toksikologichnih danih 208 2019 roku porodzhuvalni nejronni merezhi bulo vikoristano dlya stvorennya molekul yaki bulo perevireno eksperimentalno vid pochatku do kincya na mishah 209 210 Upravlinnya vidnosinami z kliyentamired Dokladnishe Upravlinnya vidnosinami z kliyentami Gliboke navchannya z pidkriplennyam en vikoristovuvali dlya nablizhuvannya cinnosti mozhlivih dij pryamogo marketingu viznachenih u terminah zminnih RFM Bulo pokazano sho cya funkciya ocinki cinnosti maye prirodnu interpretaciyu yak pozhittyeva cinnist kliyenta 211 Rekomendacijni sistemired Dokladnishe Rekomendacijna sistema Rekomendacijni sistemi vikoristovuvali gliboke navchannya dlya vidilyannya znachushih oznak dlya modeli latentnih chinnikiv dlya muzichnih ta zhurnalnih rekomendacij na osnovi vmistu 212 213 Dlya navchannya upodoban koristuvachiv iz kilkoh oblastej bulo zastosovano bagatoaspektne gliboke navchannya angl multi view deep learning 214 Cya model vikoristovuye gibridnij spilnij ta osnovanij na vmisti pidhid i pokrashuye rekomendaciyi v dekilkoh zavdannyah Bioinformatikared Dokladnishe Bioinformatika Avtokoduvalnu ShNM vikoristovuvali v bioinformatici dlya peredbachuvannya anotacij gennoyi ontologiyi ta zv yazkiv mizh genami j funkciyami 215 U medichnij informatici gliboke navchannya vikoristovuvali dlya peredbachuvannya yakosti snu na osnovi danih z nosimih pristroyiv 216 ta dlya peredbachuvannya uskladnen zdorov ya z danih elektronnih medichnih zapisiv 217 Ocinyuvannya glibokimi nejronnimi merezhamired Gliboki nejronni merezhi GNM mozhlivo vikoristovuvati dlya ocinyuvannya entropiyi stohastichnih procesiv yih nazivayut nejronnimi ocinyuvachami spilnoyi entropiyi NOSE angl Neural Joint Entropy Estimator NJEE 218 Take ocinyuvannya daye uyavlennya pro vpliv vipadkovih zminnih vhodu na nezalezhnu vipadkovu zminnu Na praktici GNM trenuyut yak klasifikator yakij vidobrazhuye vektor abo matricyu vhodu X u rozpodil imovirnosti vihodu nad mozhlivimi klasami vipadkovoyi zminnoyi Y za zadanogo vhodu X Napriklad u zavdannyah klasifikuvannya zobrazhen NOSE vidobrazhuye vektor znachen koloriv pikseliv u jmovirnosti nad mozhlivimi klasami zobrazhen Na praktici rozpodil imovirnosti Y otrimuyut za dopomogoyu sharu Softmax iz kilkistyu vuzliv yaka dorivnyuye rozmiru abetki Y NOSE vikoristovuye neperervno diferencijovni peredavalni funkciyi tak sho umovi teoremi pro universalne nablizhennya vikonuyutsya Pokazano sho cej metod zabezpechuye silno slushnu ocinku j perevershuye inshi metodi v razi velikih rozmiriv abetki 218 Analiz medichnih zobrazhenred Bulo pokazano sho gliboke navchannya daye konkurentospromozhni rezultati v medichnih zastosuvannyah takih yak klasifikuvannya rakovih klitin viyavlyannya urazhen segmentuvannya organiv ta pokrashuvannya zobrazhen 219 220 Suchasni instrumenti glibokogo navchannya demonstruyut visoku tochnist viyavlyannya riznih zahvoryuvan ta docilnist vikoristannya yih fahivcyami dlya pidvishennya efektivnosti diagnostuvannya 221 222 Mobilna reklamared Znajti vidpovidnu mobilnu auditoriyu dlya mobilnoyi reklami zavzhdi skladno oskilki neobhidno rozglyanuti ta proanalizuvati bagato tochok danih persh nizh stane mozhlivo stvoriti cilovij segment i vikoristati jogo dlya rozmishennya reklami na bud yakomu reklamnomu serveri 223 Gliboke navchannya vikoristovuvali dlya interpretuvannya velikih bagatovimirnih naboriv reklamnih danih Pid chas ciklu internet reklami zapit podacha natiskannya zbirayut bagato tochok danih Cya informaciya mozhe stavati osnovoyu mashinnogo navchannya dlya pokrashennya obirannya ogoloshen Vidnovlyuvannya zobrazhenred Gliboke navchannya bulo uspishno zastosovano do obernenih zadach en takih yak zneshumlyuvannya nadvisoka rozdilnist en zapovnyuvannya progalin en ta kolorizuvannya filmiv 224 Do cih zastosuvan vhodyat taki metodi navchannya yak Shrinkage Fields for Effective Image Restoration 225 yakij trenuyetsya na nabori zobrazhen ta gliboke apriorne zobrazhen en angl Deep Image Prior sho trenuyetsya na zobrazhenni yakomu potribne vidnovlennya Viyavlyannya finansovogo shahrajstvared Gliboke navchannya uspishno zastosovuyut dlya viyavlyannya finansovogo shahrajstva uhilennya vid splati podatkiv 226 ta borotbi z vidmivannyam groshej 227 Materialoznavstvored U listopadi 2023 roku doslidniki z Google DeepMind ta Nacionalnoyi laboratoriyi im Lourensa v Berkli ogolosili sho voni rozrobili sistemu ShI vidomu yak GNoME Cya sistema zrobila vnesla vnesok do materialoznavstva vidkrivshi ponad 2 miljoni novih materialiv za vidnosno korotkij chas GNoME vikoristovuye metodiki glibokogo navchannya dlya efektivnogo doslidzhennya potencijnih struktur materialiv dosyagayuchi znachnogo zrostannya u vstanovlyuvanni stabilnih neorganichnih kristalichnih struktur Peredbachennya ciyeyi sistemi buli pidtverdzheni za dopomogoyu avtonomnih robotizovanih eksperimentiv prodemonstruvavshi vrazhayuchij riven uspishnosti v 71 Dani pro novovidkriti materiali dostupni publichno cherez bazu danih Materials Project en nadayuchi doslidnikam mozhlivist vstanovlyuvati materiali z bazhanimi vlastivostyami dlya riznih zastosuvan Cej rozvitok maye naslidki dlya majbutnogo naukovih vidkrittiv ta integruvannya ShI v doslidzhennya materialoznavstva potencijno priskoryuyuchi novovvedennya v materialah ta znizhuyuchi vartist rozrobki produktiv Vikoristannya ShI ta glibokogo navchannya natyakaye na mozhlivist minimizaciyi abo viklyuchennya ruchnih laboratornih eksperimentiv ta dozvolyaye naukovcyam bilshe zosereditisya na proyektuvanni j analizi unikalnih spoluk 228 229 230 Vijskovired Ministerstvo oboroni Spoluchenih Shtativ zastosovuvalo gliboke navchannya shob trenuvati robotiv vikonuvati novi zavdannya cherez sposterezhennya 231 Diferencialni rivnyannya z chastinnimi pohidnimired Fizichni nejronni merezhi angl physics informed neural networks vikoristovuvali dlya rozv yazuvannya diferencialnih rivnyan iz chastinnimi pohidnimi yak u pryamih tak i v obernenih zadachah na osnovi danih 232 Odnim iz prikladiv ye vidbudova potoku ridini kerovana rivnyannyami Nav ye Stoksa Vikoristannya fizichnih nejronnih merezh ne potrebuye chasto vitratnogo porodzhuvannya sitki na yake spirayutsya zvichajni metodi obchislyuvalnoyi gidrodinamiki 233 234 Vidbudova zobrazhenred Vidbudova zobrazhen angl image reconstruction ce vidbudova zobrazhen sho lezhat v osnovi pov yazanih iz zobrazhennyami vimiryuvan Dekilka prac pokazali krashu ta vidminnu produktivnist metodiv glibokogo navchannya porivnyano z analitichnimi metodami dlya riznih zastosuvan napriklad spektralnih 235 ta ultrazvukovih zobrazhen 236 Epigenetichnij godinnikred Dokladnishe Epigenetichnij godinnik en Epigenetichnij godinnik angl epigenetic clock ce biohimichnij test yakij mozhlivo vikoristovuvati dlya vimiryuvannya viku Galkin zi spivavt vikoristali gliboki nejronni merezhi shobi natrenuvati epigenetichnij godinnik starinnya z bezprecedentnoyu tochnistyu vikoristavshi ponad 6000 zrazkiv krovi 237 Cej godinnik vikoristovuye informaciyu z 1000 CpG ostrivciv i peredbachuye lyudej z pevnimi stanami starshe zdorovih kontrolnih grup ZZK en lobovo skronevoyu demenciyeyu rakom yayechnika ozhirinnyam Cej godinnik starinnya planuvala vipustiti dlya zagalnogo vikoristannya v 2021 roku dochirnya kompaniya kompaniyi Insilico Medicine en Deep Longevity Vidnoshennya do kognitivnogo rozvitku lyudini ta rozvitku mozkured Gliboke navchannya tisno pov yazane z klasom teorij rozvitku mozku en osoblivo novoyi kori zaproponovanih kognitivnimi nejrobiologami na pochatku 1990 h rokiv 238 239 240 241 Ci teoriyi rozvitku bulo vtileno v obchislyuvalnih modelyah sho zrobilo yih poperednikami sistem glibokogo navchannya Ci modeli rozvitku podilyayut taku vlastivist sho rizni zaproponovani dinamiki navchannya v mozku napriklad hvilya chinnika rostu nerviv pidtrimuyut samoorganizaciyu desho analogichnu nejronnim merezham yaki vikoristovuyut u modelyah glibokogo navchannya Yak i nova kora nejronni merezhi vikoristovuyut iyerarhiyu bagatosharovih filtriv u yakih kozhen shar rozglyadaye informaciyu z poperednogo sharu abo robochogo seredovisha a potim peredaye svij vihid i mozhlivo pochatkovij vhid inshim sharam Cej proces vidaye samoorganizovanij stos vimiryuvalnih peretvoryuvachiv dobre pidlashtovanih do yihnogo robochogo seredovisha V opisi 1995 roku zaznacheno mozok nemovlyati zdayetsya organizovuyetsya pid vplivom hvil tak zvanih chinnikiv rostu rizni dilyanki mozku stayut z yednanimi poslidovno prichomu odin shar tkanini dozrivaye ranishe inshogo i tak dali poki ne dozriye ves mozok 242 Bulo vikoristano riznomanitni pidhodi dlya doslidzhennya pravdopodibnosti modelej glibokogo navchannya z nejrobiologichnoyi tochki zoru Z odnogo boku bulo zaproponovano dekilka variantiv algoritmu zvorotnogo poshirennya z metoyu pidvishennya realistichnosti jogo obrobki 243 244 Inshi doslidniki stverdzhuyut sho do biologichnoyi dijsnosti mozhut buti blizhchimi formi nekerovanogo glibokogo navchannya taki yak ti sho gruntuyutsya na iyerarhichnih porodzhuvalnih modelyah ta glibokih merezhah perekonan 245 246 U comu vidnoshenni modeli porodzhuvalnih nejronnih merezh pov yazuvali z nejrobiologichnimi svidchennyami obrobki v kori golovnogo mozku na osnovi vibirki 247 Hocha sistematichnogo porivnyannya mizh organizaciyeyu lyudskogo mozku ta nejronnim koduvannyam u glibokih merezhah stvoreno she ne bulo bulo povidomleno pro kilka analogij Napriklad obchislennya yaki vikonuyutsya blokami glibokogo navchannya mozhut buti podibnimi do obchislen spravzhnih nejroniv 248 i nejronnih populyacij 249 Podibnim chinom podannya virobleni modelyami glibokogo navchannya podibni do tih yaki vimiryuyut u zorovij sistemi primativ 250 yak na rivni okremogo vuzla 251 tak i na rivni populyaciyi 252 Komercijna diyalnistred Laboratoriya ShI Facebook vikonuye taki zavdannya yak avtomatichne michennya zavantazhenih zobrazhen en imenami lyudej na nih 253 Google DeepMind Technologies rozrobila sistemu zdatnu navchitisya grati u videoigri Atari vikoristovuyuchi yak dani vhodu lishe pikseli 2015 roku voni prodemonstruvali svoyu sistemu AlphaGo yaka navchilasya gri Go nastilki dobre sho peremogla profesijnogo gravcya 254 255 256 Perekladach Google vikoristovuye nejronnu merezhu shobi perekladati mizh ponad 100 movami 2017 roku bulo zapusheno Covariant ai zoseredzhenij na integruvanni glibokogo navchannya na zavodah 257 Stanom na 2008 rik 258 doslidniki Tehaskogo universitetu v Ostini UT rozrobili sistemu mashinnogo navchannya pid nazvoyu Training an Agent Manually via Evaluative Reinforcement ukr ruchne trenuvannya agenta cherez ocinyuvalne pidkriplennya abo TAMER yaka zaproponuvala novi metodi dlya robotiv ta komp yuternih program yak vchitisya vikonuvati zavdannya shlyahom vzayemodiyi z lyudinoyu instruktorom 231 Spershu rozroblenij yak TAMER novij algoritm pid nazvoyu Deep TAMER bulo piznishe predstavleno 2018 roku pid chas spivpraci mizh Doslidnickoyu laboratoriyeyu armiyi SShA ARL ta doslidnikami UT Deep TAMER vikoristovuvav gliboke navchannya shobi zabezpechiti robotovi zdatnist navchatisya novih zavdan shlyahom sposterigannya 231 Vikoristovuyuchi Deep TAMER robot navchavsya zavdannya razom iz trenerom lyudinoyu pereglyadayuchi videopotoki abo sposterigayuchi yak lyudina vikonuye zavdannya osobisto Piznishe robot vidpracovuvav zavdannya za dopomogoyu trenera yakij davav vidguki taki yak dobra robota ta pogana robota 259 Kritika ta komentarired Gliboke navchannya prityaguvalo yak kritiku tak i komentari u deyakih vipadkah poza mezhami galuzi informatiki Teoriyared Div takozh Poyasnennij shtuchnij intelekt Osnovna kritika stosuyetsya braku teoriyi navkolo deyakih metodiv 260 Navchannya v najposhirenishih glibokih arhitekturah vtileno za dopomogoyu dobre zrozumilogo gradiyentnogo spusku Prote teoriya navkolo cih algoritmiv takih yak kontrastove rozhodzhennya ne taka yasna dzherelo napriklad Vin zbigayetsya Yaksho tak to yak shvidko Sho vin nablizhuye Na metodi glibokogo navchannya chasto divlyatsya yak na chornu skrinku roblyachi bilshist pidtverdzhen empirichno a ne teoretichno 261 Inshi zaznachayut sho gliboke navchannya slid rozglyadati yak krok do vtilennya silnogo ShI a ne yak vseohopne rishennya Nezvazhayuchi na potuzhnist metodiv glibokogo navchannya yim vse she brakuye znachnoyi chastini funkcionalnosti neobhidnoyi shobi vtiliti cyu metu povnistyu Psiholog doslidnik Geri Markus en zaznachiv Naspravdi gliboke navchannya ce lishe chastina bilshogo zavdannya stvorennya rozumnih mashin Takim metodikam brakuye sposobiv podannya prichinno naslidkovih zv yazkiv voni ne mayut ochevidnih sposobiv zdijsnennya logichnih visnovkiv i voni takozh she daleki vid poyednannya abstraktnih znan takih yak informaciya pro te chim ye ob yekti dlya chogo voni i yak yih zazvichaj vikoristovuyut Najpotuzhnishi sistemi ShI taki yak Watson vikoristovuyut taki metodiki yak gliboke navchannya yak lishe odin z elementiv u duzhe skladnomu ansambli metodik pochinayuchi vid statistichnih metodik bayesovogo visnovuvannya i azh do deduktivnogo mirkuvannya 262 Sered podalshih vidsilan do tiyeyi ideyi sho hudozhnya chutlivist mozhe buti pritamanna vidnosno nizkim rivnyam kognitivnoyi iyerarhiyi opublikovana nizka grafichnih zobrazhen vnutrishnih staniv glibokih 20 30 shariv nejronnih merezh yaki namagayutsya rozglediti sered po suti vipadkovih danih zobrazhennya na yakih yih bulo trenovano 263 demonstruye vizualnu privablivist pervinne povidomlennya pro ce doslidzhennya otrimalo nabagato bilshe za 1000 komentariv i bulo predmetom protyagom deyakogo chasu najvidviduvanishoyi statti na vebsajti Gardian 264 Pomilkired Deyaki arhitekturi glibokogo navchannya demonstruyut problematichnu povedinku 265 napriklad vpevnene klasifikuvannya nevpiznannih zobrazhen yak nalezhnih do znajomoyi kategoriyi zvichajnih zobrazhen 2014 266 ta nepravilne klasifikuvannya neznachnih zburen pravilno klasifikovanih zobrazhen 2013 267 Gorcel pripustiv sho taka povedinka zumovlena obmezhennyami u yihnih vnutrishnih podannyah i sho ci obmezhennya pereshkodzhatimut integruvannyu do geterogennoyi bagatokomponentnoyi arhitekturi zagalnogo shtuchnogo intelektu ZShI 265 Mozhlivo ci problemi mozhna rozv yazati za dopomogoyu arhitektur glibokogo navchannya yaki vnutrishno utvoryuyut stani gomologichni rozkladam gramatiki zobrazhen 268 sposterezhuvanih ob yektiv ta podij 265 Vivedennya gramatiki en vizualnoyi chi movnoyi z trenuvalnih danih bulo bi rivnoznachnim obmezhennyu sistemi mirkuvannyami zdorovogo gluzdu yaki operuyut ponyattyami v terminah gramatichnih porodzhuvalnih pravil en i ye osnovnoyu metoyu yak zasvoyennya movi lyudinoyu 269 tak i shtuchnogo intelektu ShI 270 Kiberzagrozared Koli gliboke navchannya peremishuyetsya z laboratoriyi u svit doslidzhennya ta dosvid pokazuyut vrazlivist shtuchnih nejronnih merezh do hakeriv ta obmanu 271 Viznachayuchi shemi yaki ci sistemi vikoristovuyut dlya funkciyuvannya zlovmisniki mozhut zminyuvati vhidni dani do ShNM takim chinom sho ShNM znahodit vidpovidnist yaku lyudi sposterigachi ne rozpiznayut Napriklad zlovmisnik mozhe vnesti neznachni zmini v zobrazhennya takim chinom sho ShNM znajde zbig navit yaksho dlya lyudini zobrazhennya viglyadaye zovsim ne shozhim na cil poshuku Take manipulyuvannya nazivayut zmagalnoyu atakoyu angl adversarial attack 272 2016 roku doslidniki skoristalisya odniyeyu ShNM shobi pidkorigovuyuchi zobrazhennya metodom sprob i pomilok viznachiti na chomu zoseredzhuyetsya insha j takim chinom stvoriti zobrazhennya yaki vvodili yiyi v omanu Dlya lyudskogo oka zmineni zobrazhennya nichim ne vidriznyalisya Insha grupa pokazala sho rozdrukivki pidroblenih zobrazhen yaki potim fotografuvali uspishno obmanyuvali sistemu klasifikuvannya zobrazhen 273 Odnim iz zasobiv zahistu ye zvorotnij poshuk zobrazhen pid chas yakogo mozhlive pidroblene zobrazhennya nadsilayetsya na sajt napriklad TinEye yakij potim mozhe znajti inshi jogo primirniki Odne iz vdoskonalen polyagaye u poshuku z vikoristannyam lishe chastin zobrazhennya shobi vstanoviti zobrazhennya z yakih cej fragment moglo buti vzyato 274 Insha grupa pokazala sho pevni psihodelichni vidovisha mozhut zmusiti sistemu rozpiznavannya oblich vvazhati zvichajnih lyudej znamenitostyami potencijno dozvolyayuchi odnij lyudini vidavati sebe za inshu 2017 roku doslidniki dodali nalipki do znakiv zaboroni proyizdu bez zupinki zmusivshi ShNM klasifikuvati yih nepravilno 273 Prote ShNM mozhlivo dodatkovo trenuvati viyavlyati sprobi obmanu sho potencijno vede do peregoniv ozbroyen mizh zlovmisnikami j zahisnikami podibnih do tih yaki vzhe ye osnovoyu industriyi zahistu vid zlovmisnih program ShNM bulo navcheno peremagati programne zabezpechennya zahistu vid zlovmisnogo programnogo zabezpechennya na osnovi ShNM shlyahom povtoryuvanih atak na zahist zlovmisnim programnim zabezpechennyam yake postijno zminyuvalosya genetichnim algoritmom doki vono ne oshukalo protizlovmisne programne zabezpechennya zberigayuchi svoyu zdatnist poshkodzhuvati cil 273 2016 roku insha grupa prodemonstruvala sho pevni zvuki mozhut zmusiti sistemu golosovih komand Google Now vidkriti pevnu veb adresu j visunula gipotezu sho ce mozhe posluzhiti shodinkoyu dlya podalshih atak napriklad vidkrivannya vebstorinki na yakij rozmisheno zlovmisne programne zabezpechennya 273 V otruyuvanni danimi en do trenuvalnogo naboru sistemi mashinnogo navchannya sistematichno pidkidayut hibni dani shobi zavaditi yij dosyagti majsternosti 273 Etika zbirannya danihred Cej rozdil potrebuye dodatkovih posilan na dzherela dlya polipshennya jogo perevirnosti Bud laska dopomozhit udoskonaliti cej rozdil dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno lipen 2023 Bilshist sistem glibokogo navchannya pokladayutsya na trenuvalni ta kontrolni angl verification dani porodzhuvani ta abo rozmichuvani lyudmi 275 U filosofiyi zasobiv masovoyi informaciyi stverdzhuyut sho dlya ciyeyi meti regulyarno vikoristovuyut ne lishe nizkooplachuvanu klikpracyu en napriklad na Amazon Mechanical Turk a j neyavni formi lyudskoyi mikropraci en yaki chasto ne viznayut yak taku 276 Filosof Rajner Myulhof de rozriznyaye p yat tipiv mashinnogo zavolodivannya lyudskoyu mikropraceyu dlya porodzhuvannya trenuvalnih danih 1 igrofikaciya vbudovuvannya rozmichuvannya abo obchislyuvalnih zavdan u potik gri 2 zahoplyuvannya ta vidstezhuvannya napriklad CAPTCHA dlya rozpiznavannya zobrazhen abo vidstezhuvannya klikiv na storinkah rezultativ poshuku Google 3 vikoristannya socialnih motiviv napriklad poznachuvannya oblich u Facebook dlya otrimuvannya poznachenih zobrazhen oblichchya 4 rozroblennya informaciyi napriklad za dopomogoyu pristroyiv samoocifrovuvannya en takih yak vidstezhuvachi aktivnosti ta 5 klikpracyu en 276 Myulhof stverdzhuye sho v bilshosti komercijnih zastosuvan glibokogo navchannya dlya kincevih koristuvachiv takih yak sistema rozpiznavannya oblich Facebook en potreba v trenuvalnih danih pislya trenuvannya ShNM ne znikaye Skorishe isnuye postijna potreba v kontrolnih danih stvoryuvanih lyudmi shobi postijno kalibruvati ta utochnyuvati ShNM Z ciyeyu metoyu Facebook zaprovadiv funkciyu sho shojno koristuvachiv avtomatichno rozpiznano na zobrazhenni voni otrimuyut spovishennya Voni mozhut obrati chi hochut voni buti publichno poznachenimi na comu zobrazhenni chi povidomiti Facebook sho na zobrazhenni ne voni 277 Cej interfejs koristuvacha ye mehanizmom porodzhuvannya postijnogo potoku kontrolnih danih 276 dlya podalshogo trenuvannya merezhi v rezhimi realnogo chasu Yak stverdzhuye Myulhof zaluchennya lyudej koristuvachiv do porodzhuvannya trenuvalnih ta kontrolnih danih nastilki tipove dlya bilshosti komercijnih zastosuvan glibokogo navchannya dlya kincevih koristuvachiv sho taki sistemi mozhna nazvati shtuchnim intelektom z uchastyu lyudini angl human aided artificial intelligence 276 Div takozhred Zastosuvannya shtuchnogo intelektu Porivnyannya programnogo zabezpechennya glibokogo navchannya Stisnene sprijnyattya en Diferencijovne programuvannya en Merezha z vidlunnyam stanu Perelik proyektiv shtuchnogo intelektu en Perelik naboriv danih dlya doslidzhen mashinnogo navchannya Rezervuarne obchislennya Merezha z vidlunnyam stanu Ridkij skinchennij avtomat Prostir masshtabiv ta gliboke navchannya Rozridzhene koduvannya Stohastichnij papuga en Primitkired Schulz Hannes Behnke Sven 1 listopada 2012 Deep Learning KI Kunstliche Intelligenz angl 26 4 357 363 doi 10 1007 s13218 012 0198 z ISSN 1610 1987 S2CID 220523562 Homa Yu V Bench A Ya 2019 Porivnyalnij analiz programno aparatnogo zabezpechennya algoritmiv glibokogo navchannya PDF Komp yuterni sistemi i merezhi ukr 1 1 97 102 Dorosh N L Caplyuk O V 3 5 listopada 2021 Rozpiznavannya zobrazhen algoritmom glibokogo navchannya PDF VII Mizhnarodna naukovo tehnichna konferenciya Komp yuterne modelyuvannya ta optimizaciya skladnih sistem ukr Dnipro UDHTU s 91 92 Brodkevich V M Remeslo V Ya 2018 Algoritmi mashinnogo navchannya MN ta glibokogo navchannya GN i yih vikoristannya v prikladnih dodatkah PDF Mizhnarodnij naukovij zhurnal Internauka ukr Kiyiv 1 11 51 56 60 ISSN 2520 2057 LeCun Yann Bengio Yoshua Hinton Geoffrey 2015 Deep Learning Nature angl 521 7553 436 444 Bibcode 2015Natur 521 436L doi 10 1038 nature14539 PMID 26017442 S2CID 3074096 a b v Ciresan D Meier U Schmidhuber J 2012 Multi column deep neural networks for image classification 2012 IEEE Conference on Computer Vision and Pattern Recognition angl s 3642 3649 arXiv 1202 2745 doi 10 1109 cvpr 2012 6248110 ISBN 978 1 4673 1228 8 S2CID 2161592 a b Krizhevsky Alex Sutskever Ilya Hinton Geoffrey 2012 ImageNet Classification with Deep Convolutional Neural Networks PDF NIPS 2012 Neural Information Processing Systems Lake Tahoe Nevada angl Arhiv PDF originalu za 10 sichnya 2017 Procitovano 24 travnya 2017 Google s AlphaGo AI wins three match series against the world s best Go player TechCrunch angl 25 travnya 2017 Arhiv originalu za 17 chervnya 2018 Procitovano 17 chervnya 2018 Marblestone Adam H Wayne Greg Kording Konrad P 2016 Toward an Integration of Deep Learning and Neuroscience Frontiers in Computational Neuroscience angl 10 94 arXiv 1606 03813 Bibcode 2016arXiv160603813M doi 10 3389 fncom 2016 00094 PMC 5021692 PMID 27683554 S2CID 1994856 Bengio Yoshua Lee Dong Hyun Bornschein Jorg Mesnard Thomas Lin Zhouhan 13 lyutogo 2015 Towards Biologically Plausible Deep Learning angl arXiv 1502 04156 cs LG Study urges caution when comparing neural networks to the brain MIT News Massachusetts Institute of Technology angl 2 listopada 2022 Procitovano 6 grudnya 2023 a b v g d e Deng L Yu D 2014 Deep Learning Methods and Applications PDF Foundations and Trends in Signal Processing angl 7 3 4 1 199 doi 10 1561 2000000039 Arhiv PDF originalu za 14 bereznya 2016 Procitovano 18 zhovtnya 2014 Zhang W J Yang G Ji C Gupta M M 2018 On Definition of Deep Learning 2018 World Automation Congress WAC angl s 1 5 doi 10 23919 WAC 2018 8430387 ISBN 978 1 5323 7791 4 S2CID 51971897 a b v g Bengio Yoshua 2009 Learning Deep Architectures for AI PDF Foundations and Trends in Machine Learning angl 2 1 1 127 CiteSeerX 10 1 1 701 9550 doi 10 1561 2200000006 S2CID 207178999 Arhiv originalu PDF za 4 bereznya 2016 Procitovano 3 veresnya 2015 a b v g d Bengio Y Courville A Vincent P 2013 Representation Learning A Review and New Perspectives IEEE Transactions on Pattern Analysis and Machine Intelligence angl 35 8 1798 1828 arXiv 1206 5538 doi 10 1109 tpami 2013 50 PMID 23787338 S2CID 393948 LeCun Yann Bengio Yoshua Hinton Geoffrey 28 travnya 2015 Deep learning Nature angl 521 7553 436 444 Bibcode 2015Natur 521 436L doi 10 1038 nature14539 PMID 26017442 S2CID 3074096 a b v g d e zh i k l Schmidhuber J 2015 Deep Learning in Neural Networks An Overview Neural Networks angl 61 85 117 arXiv 1404 7828 doi 10 1016 j neunet 2014 09 003 PMID 25462637 S2CID 11715509 Shigeki Sugiyama 12 kvitnya 2019 Human Behavior and Another Kind in Consciousness Emerging Research and Opportunities Emerging Research and Opportunities angl IGI Global ISBN 978 1 5225 8218 2 Bengio Yoshua Lamblin Pascal Popovici Dan Larochelle Hugo 2007 Greedy layer wise training of deep networks PDF Advances in neural information processing systems angl s 153 160 Arhiv PDF originalu za 20 zhovtnya 2019 Procitovano 6 zhovtnya 2019 a b Hinton G E 2009 Deep belief networks Scholarpedia angl 4 5 5947 Bibcode 2009SchpJ 4 5947H doi 10 4249 scholarpedia 5947 Sahu Santosh Kumar Mokhade Anil Bokde Neeraj Dhanraj sichen 2023 An Overview of Machine Learning Deep Learning and Reinforcement Learning Based Techniques in Quantitative Finance Recent Progress and Challenges Applied Sciences angl 13 3 1956 doi 10 3390 app13031956 ISSN 2076 3417 a b v Cybenko 1989 Approximations by superpositions of sigmoidal functions PDF Mathematics of Control Signals and Systems en angl 2 4 303 314 doi 10 1007 bf02551274 S2CID 3958369 Arhiv originalu PDF za 10 October 2015 a b v Hornik Kurt 1991 Approximation Capabilities of Multilayer Feedforward Networks Neural Networks angl 4 2 251 257 doi 10 1016 0893 6080 91 90009 t S2CID 7343126 a b Haykin Simon S 1999 Neural Networks A Comprehensive Foundation angl Prentice Hall ISBN 978 0 13 273350 2 a b Hassoun Mohamad H 1995 Fundamentals of Artificial Neural Networks angl MIT Press s 48 ISBN 978 0 262 08239 6 a b Lu Z Pu H Wang F Hu Z amp Wang L 2017 The Expressive Power of Neural Networks A View from the Width Arhivovano 2019 02 13 u Wayback Machine Neural Information Processing Systems 6231 6239 angl Orhan A E Ma W J 2017 Efficient probabilistic inference in generic neural networks trained with non probabilistic feedback Nature Communications angl 8 1 138 Bibcode 2017NatCo 8 138O doi 10 1038 s41467 017 00181 8 PMC 5527101 PMID 28743932 a b v g Murphy Kevin P 24 serpnya 2012 Machine Learning A Probabilistic Perspective angl MIT Press ISBN 978 0 262 01802 9 a b Fukushima K 1969 Visual feature extraction by a multilayered network of analog threshold elements IEEE Transactions on Systems Science and Cybernetics angl 5 4 322 333 doi 10 1109 TSSC 1969 300225 Sonoda Sho Murata Noboru 2017 Neural network with unbounded activation functions is universal approximator Applied and Computational Harmonic Analysis angl 43 2 233 268 arXiv 1505 03654 doi 10 1016 j acha 2015 12 005 S2CID 12149203 Bishop Christopher M 2006 Pattern Recognition and Machine Learning PDF angl Springer ISBN 978 0 387 31073 2 Arhiv PDF originalu za 11 sichnya 2017 Procitovano 6 serpnya 2017 Brush Stephen G 1967 History of the Lenz Ising Model Reviews of Modern Physics angl 39 4 883 893 Bibcode 1967RvMP 39 883B doi 10 1103 RevModPhys 39 883 Amari Shun Ichi 1972 Learning patterns and pattern sequences by self organizing nets of threshold elements IEEE Transactions angl C 21 1197 1206 a b v g d e zh i k l m n p r Schmidhuber Jurgen 2022 Annotated History of Modern AI and Deep Learning angl arXiv 2212 11279 cs NE Hopfield J J 1982 Neural networks and physical systems with emergent collective computational abilities Proceedings of the National Academy of Sciences angl 79 8 2554 2558 Bibcode 1982PNAS 79 2554H doi 10 1073 pnas 79 8 2554 PMC 346238 PMID 6953413 Tappert Charles C 2019 Who Is the Father of Deep Learning 2019 International Conference on Computational Science and Computational Intelligence CSCI angl IEEE s 343 348 doi 10 1109 CSCI49370 2019 00067 ISBN 978 1 7281 5584 5 S2CID 216043128 Procitovano 31 travnya 2021 a b v Rosenblatt Frank 1962 Principles of Neurodynamics angl Spartan New York a b Rina Dechter en 1986 Learning while searching in constraint satisfaction problems University of California Computer Science Department Cognitive Systems Laboratory Online Arhivovano 2016 04 19 u Wayback Machine angl Fradkov Alexander L 1 sichnya 2020 Early History of Machine Learning IFAC PapersOnLine 21st IFAC World Congress angl 53 2 1385 1390 doi 10 1016 j ifacol 2020 12 1888 ISSN 2405 8963 S2CID 235081987 Ivakhnenko A G Lapa V G 1967 Cybernetics and Forecasting Techniques angl American Elsevier Publishing Co ISBN 978 0 444 00020 0 a b Ivakhnenko Alexey 1971 Polynomial theory of complex systems PDF IEEE Transactions on Systems Man and Cybernetics angl SMC 1 4 364 378 doi 10 1109 TSMC 1971 4308320 Arhiv PDF originalu za 29 serpnya 2017 Procitovano 5 listopada 2019 Robbins H Monro S 1951 A Stochastic Approximation Method The Annals of Mathematical Statistics angl 22 3 400 doi 10 1214 aoms 1177729586 Amari Shun ichi 1967 A theory of adaptive pattern classifier IEEE Transactions angl EC 16 279 307 Matthew Brand 1988 Machine and Brain Learning University of Chicago Tutorial Studies Bachelor s Thesis 1988 Reported at the Summer Linguistics Institute Stanford University 1987 angl Linnainmaa Seppo 1970 The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors Masters fin University of Helsinki s 6 7 Linnainmaa Seppo 1976 Taylor expansion of the accumulated rounding error BIT Numerical Mathematics angl 16 2 146 160 doi 10 1007 bf01931367 S2CID 122357351 Griewank Andreas 2012 Who Invented the Reverse Mode of Differentiation PDF Documenta Mathematica angl Extra Volume ISMP 389 400 Arhiv originalu PDF za 21 lipnya 2017 Procitovano 11 chervnya 2017 Leibniz Gottfried Wilhelm Freiherr von 1920 The Early Mathematical Manuscripts of Leibniz Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes Leibniz published the chain rule in a 1676 memoir angl Open court publishing Company ISBN 9780598818461 Kelley Henry J 1960 Gradient theory of optimal flight paths ARS Journal angl 30 10 947 954 doi 10 2514 8 5282 Werbos Paul 1982 Applications of advances in nonlinear sensitivity analysis System modeling and optimization angl Springer s 762 770 Werbos P 1974 Beyond Regression New Tools for Prediction and Analysis in the Behavioral Sciences Harvard University angl Procitovano 12 chervnya 2017 Rumelhart David E Geoffrey E Hinton and R J Williams Learning Internal Representations by Error Propagation Arhivovano 2022 10 13 u Wayback Machine David E Rumelhart James L McClelland and the PDP research group editors Parallel distributed processing Explorations in the microstructure of cognition Volume 1 Foundation MIT Press 1986 angl Fukushima K 1980 Neocognitron A self organizing neural network model for a mechanism of pattern recognition unaffected by shift in position Biol Cybern angl 36 4 193 202 doi 10 1007 bf00344251 PMID 7370364 S2CID 206775608 Ramachandran Prajit Barret Zoph Quoc V Le 16 zhovtnya 2017 Searching for Activation Functions angl arXiv 1710 05941 cs NE Aizenberg I N Aizenberg N N Vandewalle J 2000 Multi Valued and Universal Binary Neurons angl Science amp Business Media doi 10 1007 978 1 4757 3115 6 ISBN 978 0 7923 7824 2 Procitovano 27 grudnya 2023 Co evolving recurrent neurons learn deep memory POMDPs Proc GECCO Washington D C pp 1795 1802 ACM Press New York NY USA 2005 angl a b Zhang Wei 1988 Shift invariant pattern recognition neural network and its optical architecture Proceedings of Annual Conference of the Japan Society of Applied Physics angl Zhang Wei 1990 Parallel distributed processing model with local space invariant interconnections and its optical architecture Applied Optics angl 29 32 4790 7 Bibcode 1990ApOpt 29 4790Z doi 10 1364 AO 29 004790 PMID 20577468 a b LeCun et al Backpropagation Applied to Handwritten Zip Code Recognition Neural Computation 1 pp 541 551 1989 angl Zhang Wei 1991 Image processing of human corneal endothelium based on a learning network Applied Optics angl 30 29 4211 7 Bibcode 1991ApOpt 30 4211Z doi 10 1364 AO 30 004211 PMID 20706526 Zhang Wei 1994 Computerized detection of clustered microcalcifications in digital mammograms using a shift invariant artificial neural network Medical Physics angl 21 4 517 24 Bibcode 1994MedPh 21 517Z doi 10 1118 1 597177 PMID 8058017 LeCun Yann Leon Bottou Yoshua Bengio Patrick Haffner 1998 Gradient based learning applied to document recognition PDF Proceedings of the IEEE angl 86 11 2278 2324 CiteSeerX 10 1 1 32 9552 doi 10 1109 5 726791 S2CID 14542261 Procitovano 7 zhovtnya 2016 a b v Schmidhuber Jurgen 1992 Learning complex extended sequences using the principle of history compression based on TR FKI 148 1991 PDF Neural Computation angl 4 2 234 242 doi 10 1162 neco 1992 4 2 234 S2CID 18271205 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya Schmidhuber Jurgen 1993 Habilitation Thesis PDF nim Arhiv originalu PDF za 26 chervnya 2021 Schmidhuber Jurgen 1 listopada 1992 Learning to control fast weight memories an alternative to recurrent nets Neural Computation angl 4 1 131 139 doi 10 1162 neco 1992 4 1 131 S2CID 16683347 a b Schlag Imanol Irie Kazuki Schmidhuber Jurgen 2021 Linear Transformers Are Secretly Fast Weight Programmers ICML 2021 angl Springer s 9355 9366 Choromanski Krzysztof Likhosherstov Valerii Dohan David Song Xingyou Gane Andreea Sarlos Tamas Hawkins Peter Davis Jared Mohiuddin Afroz Kaiser Lukasz Belanger David Colwell Lucy Weller Adrian 2020 Rethinking Attention with Performers angl arXiv 2009 14794 cs CL Schmidhuber Jurgen 1993 Reducing the ratio between learning complexity and number of time varying variables in fully recurrent nets ICANN 1993 angl Springer s 460 463 Vaswani Ashish Shazeer Noam Parmar Niki Uszkoreit Jakob Jones Llion Gomez Aidan N Kaiser Lukasz Polosukhin Illia 12 chervnya 2017 Attention Is All You Need angl arXiv 1706 03762 cs CL Wolf Thomas Debut Lysandre Sanh Victor Chaumond Julien Delangue Clement Moi Anthony Cistac Pierric Rault Tim Louf Remi Funtowicz Morgan Davison Joe Shleifer Sam von Platen Patrick Ma Clara Jernite Yacine Plu Julien Xu Canwen Le Scao Teven Gugger Sylvain Drame Mariama Lhoest Quentin Rush Alexander 2020 Transformers State of the Art Natural Language Processing Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing System Demonstrations angl s 38 45 doi 10 18653 v1 2020 emnlp demos 6 S2CID 208117506 He Cheng 31 grudnya 2021 Transformer in CV Transformer in CV angl Towards Data Science Schmidhuber Jurgen 1991 A possibility for implementing curiosity and boredom in model building neural controllers Proc SAB 1991 angl MIT Press Bradford Books s 222 227 Schmidhuber Jurgen 2010 Formal Theory of Creativity Fun and Intrinsic Motivation 1990 2010 IEEE Transactions on Autonomous Mental Development angl 2 3 230 247 doi 10 1109 TAMD 2010 2056368 S2CID 234198 Schmidhuber Jurgen 2020 Generative Adversarial Networks are Special Cases of Artificial Curiosity 1990 and also Closely Related to Predictability Minimization 1991 Neural Networks angl 127 58 66 arXiv 1906 04493 doi 10 1016 j neunet 2020 04 008 PMID 32334341 S2CID 216056336 Goodfellow Ian Pouget Abadie Jean Mirza Mehdi Xu Bing Warde Farley David Ozair Sherjil Courville Aaron Bengio Yoshua 2014 Generative Adversarial Networks PDF Proceedings of the International Conference on Neural Information Processing Systems NIPS 2014 angl s 2672 2680 Arhiv PDF originalu za 22 listopada 2019 Procitovano 20 serpnya 2019 Prepare Don t Panic Synthetic Media and Deepfakes angl witness org Arhiv originalu za 2 grudnya 2020 Procitovano 25 listopada 2020 GAN 2 0 NVIDIA s Hyperrealistic Face Generator SyncedReview com angl 14 grudnya 2018 Procitovano 3 zhovtnya 2019 Karras T Aila T Laine S Lehtinen J 26 lyutogo 2018 Progressive Growing of GANs for Improved Quality Stability and Variation angl arXiv 1710 10196 cs NE a b v S Hochreiter Untersuchungen zu dynamischen neuronalen Netzen Arhivovano 2015 03 06 u Wayback Machine Diploma thesis Institut f Informatik Technische Univ Munich Advisor J Schmidhuber 1991 nim Hochreiter S ta in 15 sichnya 2001 Gradient flow in recurrent nets the difficulty of learning long term dependencies U Kolen John F Kremer Stefan C red A Field Guide to Dynamical Recurrent Networks angl John Wiley amp Sons ISBN 978 0 7803 5369 5 a b v Hochreiter Sepp Schmidhuber Jurgen 1 listopada 1997 Long Short Term Memory Neural Computation angl 9 8 1735 1780 doi 10 1162 neco 1997 9 8 1735 ISSN 0899 7667 PMID 9377276 S2CID 1915014 Gers Felix Schmidhuber Jurgen Cummins Fred 1999 Learning to forget Continual prediction with LSTM 9th International Conference on Artificial Neural Networks ICANN 99 angl T 1999 s 850 855 doi 10 1049 cp 19991218 ISBN 0 85296 721 7 Srivastava Rupesh Kumar Greff Klaus Schmidhuber Jurgen 2 travnya 2015 Highway Networks angl arXiv 1505 00387 cs LG Srivastava Rupesh K Greff Klaus Schmidhuber Jurgen 2015 Training Very Deep Networks Advances in Neural Information Processing Systems angl Curran Associates Inc 28 2377 2385 He Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 2016 Deep Residual Learning for Image Recognition 2016 IEEE Conference on Computer Vision and Pattern Recognition CVPR angl Las Vegas NV USA IEEE s 770 778 arXiv 1512 03385 doi 10 1109 CVPR 2016 90 ISBN 978 1 4673 8851 1 de Carvalho Andre C L F Fairhurst Mike C Bisset David 8 serpnya 1994 An integrated Boolean neural network for pattern classification Pattern Recognition Letters angl 15 8 807 813 Bibcode 1994PaReL 15 807D doi 10 1016 0167 8655 94 90009 4 Hinton Geoffrey E Dayan Peter Frey Brendan J Neal Radford 26 travnya 1995 The wake sleep algorithm for unsupervised neural networks Science angl 268 5214 1158 1161 Bibcode 1995Sci 268 1158H doi 10 1126 science 7761831 PMID 7761831 S2CID 871473 Behnke Sven 2003 Hierarchical Neural Networks for Image Interpretation Lecture Notes in Computer Science angl T 2766 Springer doi 10 1007 b11963 ISBN 3 540 40722 7 S2CID 1304548 Morgan Nelson Bourlard Herve Renals Steve Cohen Michael Franco Horacio 1 serpnya 1993 Hybrid neural network hidden markov model systems for continuous speech recognition International Journal of Pattern Recognition and Artificial Intelligence angl 07 4 899 916 doi 10 1142 s0218001493000455 ISSN 0218 0014 Robinson T 1992 A real time recurrent error propagation network word recognition system ICASSP Icassp 92 angl 617 620 ISBN 9780780305328 Arhiv originalu za 9 travnya 2021 Procitovano 12 chervnya 2017 Waibel A Hanazawa T Hinton G Shikano K Lang K J March 1989 Phoneme recognition using time delay neural networks PDF IEEE Transactions on Acoustics Speech and Signal Processing angl 37 3 328 339 doi 10 1109 29 21701 hdl 10338 dmlcz 135496 ISSN 0096 3518 S2CID 9563026 Arhiv PDF originalu za 27 kvitnya 2021 Procitovano 24 veresnya 2019 Baker J Deng Li Glass Jim Khudanpur S Lee C H Morgan N O Shaughnessy D 2009 Research Developments and Directions in Speech Recognition and Understanding Part 1 IEEE Signal Processing Magazine angl 26 3 75 80 Bibcode 2009ISPM 26 75B doi 10 1109 msp 2009 932166 hdl 1721 1 51891 S2CID 357467 Bengio Y 1991 Artificial Neural Networks and their Application to Speech Sequence Recognition angl McGill University Ph D thesis Arhiv originalu za 9 travnya 2021 Procitovano 12 chervnya 2017 Deng L Hassanein K Elmasry M 1994 Analysis of correlation structure for a neural predictive model with applications to speech recognition Neural Networks angl 7 2 331 339 doi 10 1016 0893 6080 94 90027 2 Doddington G Przybocki M Martin A Reynolds D 2000 The NIST speaker recognition evaluation Overview methodology systems results perspective Speech Communication angl 31 2 225 254 doi 10 1016 S0167 6393 99 00080 1 a b Heck L Konig Y Sonmez M Weintraub M 2000 Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design Speech Communication angl 31 2 181 192 doi 10 1016 s0167 6393 99 00077 1 Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR PDF Download Available ResearchGate angl Arhiv originalu za 9 travnya 2021 Procitovano 14 chervnya 2017 a b Graves Alex Eck Douglas Beringer Nicole Schmidhuber Jurgen 2003 Biologically Plausible Speech Recognition with LSTM Neural Nets PDF 1st Intl Workshop on Biologically Inspired Approaches to Advanced Information Technology Bio ADIT 2004 Lausanne Switzerland angl s 175 184 Arhiv PDF originalu za 9 travnya 2021 Procitovano 9 kvitnya 2016 a b v Graves Alex Fernandez Santiago Gomez Faustino Schmidhuber Jurgen 2006 Connectionist temporal classification Labelling unsegmented sequence data with recurrent neural networks Proceedings of the International Conference on Machine Learning ICML 2006 angl 369 376 CiteSeerX 10 1 1 75 6306 Santiago Fernandez Alex Graves and Jurgen Schmidhuber 2007 An application of recurrent neural networks to discriminative keyword spotting Arhivovano 2018 11 18 u Wayback Machine Proceedings of ICANN 2 pp 220 229 angl a b v Sak Hasim Senior Andrew Rao Kanishka Beaufays Francoise Schalkwyk Johan September 2015 Google voice search faster and more accurate angl Arhiv originalu za 9 bereznya 2016 Procitovano 9 kvitnya 2016 Yann LeCun 2016 Slides on Deep Learning Online Arhivovano 2016 04 23 u Wayback Machine angl Hinton Geoffrey E 1 zhovtnya 2007 Learning multiple layers of representation Trends in Cognitive Sciences angl 11 10 428 434 doi 10 1016 j tics 2007 09 004 ISSN 1364 6613 PMID 17921042 S2CID 15066318 Arhiv originalu za 11 zhovtnya 2013 Procitovano 12 chervnya 2017 Hinton G E Osindero S Teh Y W 2006 A Fast Learning Algorithm for Deep Belief Nets PDF Neural Computation en angl 18 7 1527 1554 doi 10 1162 neco 2006 18 7 1527 PMID 16764513 S2CID 2309950 Arhiv PDF originalu za 23 grudnya 2015 Procitovano 20 lipnya 2011 Bengio Yoshua 2012 Practical recommendations for gradient based training of deep architectures angl arXiv 1206 5533 cs LG G E Hinton Learning multiple layers of representation Arhivovano 2018 05 22 u Wayback Machine Trends in Cognitive Sciences 11 pp 428 434 2007 angl a b v Hinton G Deng L Yu D Dahl G Mohamed A Jaitly N Senior A Vanhoucke V Nguyen P Sainath T Kingsbury B 2012 Deep Neural Networks for Acoustic Modeling in Speech Recognition The Shared Views of Four Research Groups IEEE Signal Processing Magazine angl 29 6 82 97 Bibcode 2012ISPM 29 82H doi 10 1109 msp 2012 2205597 S2CID 206485943 a b v Deng L Hinton G Kingsbury B traven 2013 New types of deep neural network learning for speech recognition and related applications An overview ICASSP PDF angl Microsoft Arhiv PDF originalu za 26 veresnya 2017 Procitovano 27 grudnya 2023 a b v Yu D Deng L 2014 Automatic Speech Recognition A Deep Learning Approach Publisher Springer angl Springer ISBN 978 1 4471 5779 3 Deng receives prestigious IEEE Technical Achievement Award Microsoft Research Microsoft Research angl 3 grudnya 2015 Arhiv originalu za 16 bereznya 2018 Procitovano 16 bereznya 2018 a b Li Deng September 2014 Keynote talk Achievements and Challenges of Deep Learning From Speech Analysis and Recognition To Language and Multimodal Processing Interspeech angl Arhiv originalu za 26 veresnya 2017 Procitovano 12 chervnya 2017 Yu D Deng L 2010 Roles of Pre Training and Fine Tuning in Context Dependent DBN HMMs for Real World Speech Recognition NIPS Workshop on Deep Learning and Unsupervised Feature Learning angl Arhiv originalu za 12 zhovtnya 2017 Procitovano 14 chervnya 2017 Seide F Li G Yu D 2011 Conversational speech transcription using context dependent deep neural networks Interspeech angl 437 440 doi 10 21437 Interspeech 2011 169 S2CID 398770 Arhiv originalu za 12 zhovtnya 2017 Procitovano 14 chervnya 2017 Deng Li Li Jinyu Huang Jui Ting Yao Kaisheng Yu Dong Seide Frank Seltzer Mike Zweig Geoff He Xiaodong 1 travnya 2013 Recent Advances in Deep Learning for Speech Research at Microsoft Microsoft Research angl Arhiv originalu za 12 zhovtnya 2017 Procitovano 14 chervnya 2017 Singh Premjeet Saha Goutam Sahidullah Md 2021 Non linear frequency warping using constant Q transformation for speech emotion recognition 2021 International Conference on Computer Communication and Informatics ICCCI angl s 1 4 arXiv 2102 04029 doi 10 1109 ICCCI50826 2021 9402569 ISBN 978 1 7281 5875 4 S2CID 231846518 Sak Hasim Senior Andrew Beaufays Francoise 2014 Long Short Term Memory recurrent neural network architectures for large scale acoustic modeling PDF angl Arhiv originalu PDF za 24 kvitnya 2018 Li Xiangang Wu Xihong 2014 Constructing Long Short Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition arXiv 1410 4281 cs CL a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite arXiv title Shablon Cite arXiv cite arXiv a Proignorovano nevidomij parametr langyage dovidka Zen Heiga Sak Hasim 2015 Unidirectional Long Short Term Memory Recurrent Neural Network with Recurrent Output Layer for Low Latency Speech Synthesis PDF Google com angl ICASSP s 4470 4474 Arhiv PDF originalu za 9 travnya 2021 Procitovano 13 chervnya 2017 Nvidia CEO bets big on deep learning and VR angl Venture Beat 5 kvitnya 2016 Arhiv originalu za 25 listopada 2020 Procitovano 21 kvitnya 2017 From not working to neural networking The Economist angl Arhiv originalu za 31 grudnya 2016 Procitovano 26 serpnya 2017 a b Oh K S Jung K 2004 GPU implementation of neural networks Pattern Recognition angl 37 6 1311 1314 Bibcode 2004PatRe 37 1311O doi 10 1016 j patcog 2004 01 013 A Survey of Techniques for Optimizing Deep Learning on GPUs Arhivovano 2021 05 09 u Wayback Machine S Mittal and S Vaishay Journal of Systems Architecture 2019 angl a b Chellapilla Kumar Puri Sidd Simard Patrice 2006 High performance convolutional neural networks for document processing angl arhiv originalu za 18 travnya 2020 procitovano 14 lyutogo 2021 Ciresan Dan Claudiu Meier Ueli Gambardella Luca Maria Schmidhuber Jurgen 21 veresnya 2010 Deep Big Simple Neural Nets for Handwritten Digit Recognition Neural Computation angl 22 12 3207 3220 arXiv 1003 0358 doi 10 1162 neco a 00052 ISSN 0899 7667 PMID 20858131 S2CID 1918673 Raina Rajat Madhavan Anand Ng Andrew Y 2009 Large scale deep unsupervised learning using graphics processors Proceedings of the 26th Annual International Conference on Machine Learning ICML 09 angl New York NY USA ACM s 873 880 CiteSeerX 10 1 1 154 372 doi 10 1145 1553374 1553486 ISBN 9781605585161 S2CID 392458 Sze Vivienne Chen Yu Hsin Yang Tien Ju Emer Joel 2017 Efficient Processing of Deep Neural Networks A Tutorial and Survey arXiv 1703 09039 cs CV Graves Alex and Schmidhuber Jurgen Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks in Bengio Yoshua Schuurmans Dale Lafferty John Williams Chris K I and Culotta Aron eds Advances in Neural Information Processing Systems 22 NIPS 22 December 7th 10th 2009 Vancouver BC Neural Information Processing Systems NIPS Foundation 2009 pp 545 552 angl Google Research Blog The neural networks behind Google Voice transcription August 11 2015 By Francoise Beaufays http googleresearch blogspot co at 2015 08 the neural networks behind google voice html angl Ciresan D C Meier U Masci J Gambardella L M Schmidhuber J 2011 Flexible High Performance Convolutional Neural Networks for Image Classification PDF International Joint Conference on Artificial Intelligence angl doi 10 5591 978 1 57735 516 8 ijcai11 210 Arhiv PDF originalu za 29 veresnya 2014 Procitovano 13 chervnya 2017 Ciresan Dan Giusti Alessandro Gambardella Luca M Schmidhuber Jurgen 2012 Pereira F Burges C J C Bottou L Weinberger K Q red Advances in Neural Information Processing Systems 25 PDF angl Curran Associates Inc s 2843 2851 Arhiv PDF originalu za 9 serpnya 2017 Procitovano 13 chervnya 2017 Ciresan D Giusti A Gambardella L M Schmidhuber J 2013 Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks Medical Image Computing and Computer Assisted Intervention MICCAI 2013 Lecture Notes in Computer Science angl T 7908 Pt 2 s 411 418 doi 10 1007 978 3 642 40763 5 51 ISBN 978 3 642 38708 1 PMID 24579167 Simonyan Karen Andrew Zisserman 2014 Very Deep Convolution Networks for Large Scale Image Recognition angl arXiv 1409 1556 cs CV Vinyals Oriol Toshev Alexander Bengio Samy Erhan Dumitru 2014 Show and Tell A Neural Image Caption Generator angl arXiv 1411 4555 cs CV Fang Hao Gupta Saurabh Iandola Forrest Srivastava Rupesh Deng Li Dollar Piotr Gao Jianfeng He Xiaodong Mitchell Margaret Platt John C Lawrence Zitnick C Zweig Geoffrey 2014 From Captions to Visual Concepts and Back angl arXiv 1411 4952 cs CV Kiros Ryan Salakhutdinov Ruslan Zemel Richard S 2014 Unifying Visual Semantic Embeddings with Multimodal Neural Language Models angl arXiv 1411 2539 cs LG a b Merck Molecular Activity Challenge kaggle com angl Arhiv originalu za 16 lipnya 2020 Procitovano 16 lipnya 2020 a b Multi task Neural Networks for QSAR Predictions Data Science Association www datascienceassn org angl Arhiv originalu za 30 kvitnya 2017 Procitovano 14 chervnya 2017 a b Toxicology in the 21st century Data Challenge angl a b NCATS Announces Tox21 Data Challenge Winners angl Arhiv originalu za 8 veresnya 2015 Procitovano 5 bereznya 2015 a b NCATS Announces Tox21 Data Challenge Winners angl Arhiv originalu za 28 lyutogo 2015 Procitovano 5 bereznya 2015 Why Deep Learning Is Suddenly Changing Your Life Fortune angl 2016 Arhiv originalu za 14 kvitnya 2018 Procitovano 13 kvitnya 2018 Ferrie C amp Kaiser S 2019 Neural Networks for Babies angl Sourcebooks ISBN 978 1492671206 Silver David Huang Aja Maddison Chris J Guez Arthur Sifre Laurent Driessche George van den Schrittwieser Julian Antonoglou Ioannis Panneershelvam Veda January 2016 Mastering the game of Go with deep neural networks and tree search Nature angl 529 7587 484 489 Bibcode 2016Natur 529 484S doi 10 1038 nature16961 ISSN 1476 4687 PMID 26819042 S2CID 515925 A Guide to Deep Learning and Neural Networks angl arhiv originalu za 2 listopada 2020 procitovano 16 listopada 2020 Szegedy Christian Toshev Alexander Erhan Dumitru 2013 Deep neural networks for object detection Advances in Neural Information Processing Systems angl 2553 2561 Arhiv originalu za 29 chervnya 2017 Procitovano 13 chervnya 2017 Rolnick David Tegmark Max 2018 The power of deeper networks for expressing natural functions International Conference on Learning Representations ICLR 2018 angl Arhiv originalu za 7 sichnya 2021 Procitovano 5 sichnya 2021 Hof Robert D Is Artificial Intelligence Finally Coming into Its Own MIT Technology Review angl Arhiv originalu za 31 bereznya 2019 Procitovano 10 lipnya 2018 a b Gers Felix A Schmidhuber Jurgen 2001 LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages IEEE Transactions on Neural Networks angl 12 6 1333 1340 doi 10 1109 72 963769 PMID 18249962 S2CID 10192330 Arhiv originalu za 26 sichnya 2020 Procitovano 25 lyutogo 2020 a b v Sutskever L Vinyals O Le Q 2014 Sequence to Sequence Learning with Neural Networks PDF Proc NIPS angl arXiv 1409 3215 Bibcode 2014arXiv1409 3215S Arhiv PDF originalu za 9 travnya 2021 Procitovano 13 chervnya 2017 a b Jozefowicz Rafal Vinyals Oriol Schuster Mike Shazeer Noam Wu Yonghui 2016 Exploring the Limits of Language Modeling angl arXiv 1602 02410 cs CL a b Gillick Dan Brunk Cliff Vinyals Oriol Subramanya Amarnag 2015 Multilingual Language Processing from Bytes angl arXiv 1512 00103 cs CL Mikolov T ta in 2010 Recurrent neural network based language model PDF Interspeech angl 1045 1048 doi 10 21437 Interspeech 2010 343 S2CID 17048224 Arhiv PDF originalu za 16 travnya 2017 Procitovano 13 chervnya 2017 a b Learning Precise Timing with LSTM Recurrent Networks PDF Download Available ResearchGate angl Arhiv originalu za 9 travnya 2021 Procitovano 13 chervnya 2017 LeCun Y ta in 1998 a