Шту́чні нейро́нні мере́жі (ШНМ, англ. artificial neural network), які зазвичай просто називають нейронними мережами (НМ, англ. neural networks, NN) або нейромережами (англ. neural nets), це обчислювальні системи, натхнені біологічними нейронними мережами, які складають мозок тварин.
ШНМ ґрунтується на сукупності з'єднаних вузлів (англ. units, nodes), які називають штучними нейронами, які приблизно моделюють нейрони біологічного мозку. Кожне з'єднання, як і синапси в біологічному мозку, може передавати сигнал до інших нейронів. Штучний нейрон отримує сигнали, потім обробляє їх і може сигналізувати нейронам, з якими його з'єднано. «Сигнал» у з'єднанні це дійсне число, а вихід кожного нейрона обчислюється деякою нелінійною функцією суми його входів. З'єднання називають ребрами (англ. edges). Нейрони та ребра зазвичай мають [en] (англ. weight), яка підлаштовується в процесі навчання. Вага збільшує або зменшує силу сигналу на з'єднанні. Нейрони можуть мати такий поріг, що сигнал надсилається лише тоді, коли сукупний сигнал перевищує цей поріг.
Як правило, нейрони зібрано в шари (англ. layers). Різні шари можуть виконувати різні перетворення даних свого входу. Сигнали проходять від першого шару (шару входу) до останнього (шару виходу), можливо, після проходження шарами декілька разів.
Тренування
Нейронні мережі навчаються (або, їх тренують) шляхом обробки прикладів, кожен з яких містить відомий «вхід» та «результат», утворюючи ймовірнісно зважені асоціації між ними, які зберігаються в структурі даних самої мережі. Тренування нейронної мережі заданим прикладом зазвичай здійснюють шляхом визначення різниці між обробленим виходом мережі (часто, передбаченням) і цільовим виходом. Ця різниця є похибкою. Потім мережа підлаштовує свої зважені асоціації відповідно до правила навчання і з використанням цього значення похибки. Послідовні підлаштовування призведуть до виробляння нейронною мережею результатів, усе більше схожих на цільові. Після достатньої кількості цих підлаштовувань, тренування можливо припинити на основі певного критерію. Це форма керованого навчання.
Такі системи «навчаються» виконувати завдання, розглядаючи приклади, як правило, без програмування правил для конкретних завдань. Наприклад, у розпізнаванні зображень вони можуть навчитися встановлювати зображення, на яких зображені коти, аналізуючи приклади зображень, [en] вручну як «кіт» та «не кіт», і використовуючи результати для ідентифікування котів на інших зображеннях. Вони роблять це без будь-якого апріорного знання про котів, наприклад, що вони мають хутро, хвости, вуса та котоподібні писки. Натомість, вони автоматично породжують ідентифікаційні характеристики з прикладів, які оброблюють.
Історія
Найпростіший тип нейронної мережі прямого поширення (НМПП, англ. feedforward neural network, FNN) це лінійна мережа, яка складається з єдиного шару вузлів виходу; входи подаються безпосередньо на виходи через низку ваг. В кожному вузлі обчислюється сума добутків ваг та даних входів. Середньоквадратичні похибки між цими обчисленими виходами та заданими цільовими значеннями мінімізують шляхом підлаштовування ваг. Цей метод відомий понад два століття як метод найменших квадратів або лінійна регресія. Лежандр (1805) та Гаусс (1795) використовували його як засіб для знаходження доброго грубого лінійного допасування до набору точок для передбачування руху планет.
[en] та [en] створили та проаналізували модель Ізінга (1925), яка, по суті, є штучною рекурентною нейронною мережею (РНМ, англ. recurrent neural network, RNN) без навчання, що складається з нейроноподібних порогових елементів. 1972 року [en] зробив цю архітектуру адаптивною. Його навчання РНМ популяризував Джон Гопфілд 1982 року.
Воррен Маккалох та [en] (1943) також розглядали ненавчану обчислювальну модель для нейронних мереж. Наприкінці 1940-х років Д. О. Гебб створив гіпотезу навчання, засновану на механізмі нейропластичності, що стала відомою як геббове навчання (англ. Hebbian learning). Фарлі та [en] (1954) вперше використали обчислювальні машини, звані тоді «калькуляторами», для моделювання геббової мережі. 1958 року психолог Френк Розенблат винайшов перцептрон (англ. perceptron), першу втілену штучну нейронну мережу, фінансовану [en] США.
Дехто каже, що дослідження зазнали застою після того, як Мінскі та Пейперт (1969) виявили, що базові перцептрони не здатні обробляти схему виключного «або», і що комп'ютерам бракує достатньої потужності для обробки придатних нейронних мереж. Проте на момент виходу цієї книги вже були відомі методи тренування багатошарових перцептронів (БШП, англ. multilayer perceptron, MLP).
Перший БШП глибокого навчання опублікували Олексій Григорович Івахненко та Валентин Лапа 1965 року під назвою метод групового урахування аргументів (англ. Group Method of Data Handling). Перший БШП глибокого навчання, навчений стохастичним градієнтним спуском, опублікував 1967 року [en]. У комп'ютерних експериментах, проведених учнем Амарі Сайто, п'ятишаровий БШП із двома змінюваними шарами навчився корисних внутрішніх подань для класифікування нелінійно роздільних класів образів.
Самоорганізаційні карти (англ. self-organizing maps, SOM) описав Теуво Кохонен 1982 року. Самоорганізаційні карти — це нейрофізіологічно натхнені нейронні мережі, які навчаються низьковимірного подання високовимірних даних, зберігаючи при цьому топологічну структуру цих даних. Вони тренуються за допомогою конкурентного навчання.
Архітектуру згорткової нейронної мережі (ЗНМ, англ. convolutional neural network, CNN) зі згортковими шарами та шарами пониження дискретизації запропонував [en] 1980 року. Він назвав її неокогнітроном (англ. neocognitron). 1969 року він також запропонував передавальну функцію ReLU (англ. rectified linear unit, випрямлений лінійний вузол). Цей випрямляч став найпопулярнішою передавальною функцією для ЗНМ та глибоких нейронних мереж загалом. ЗНМ стали важливим інструментом комп'ютерного бачення.
Алгоритм зворотного поширення (англ. backpropagation) це ефективне застосування ланцюгового правила Лейбніца (1673) до мереж диференційовних вузлів. Він також відомий як зворотний режим автоматичного диференціювання або [en], завдяки [en] (1970). Термін «похибки зворотного поширення» (англ. "back-propagating errors") запровадив 1962 року Френк Розенблат, але він не мав втілення цієї процедури, хоча [en] та [en] мали безперервні попередники зворотного поширення на основі динамічного програмування. вже в 1960—61 роках у контексті теорії керування. 1973 року Дрейфус використав зворотне поширення для пристосовування параметрів контролерів пропорційно градієнтам похибок. 1982 року [en] застосував зворотне поширення до БШП у спосіб, який став стандартним. 1986 року [en], Гінтон та [en] показали, що зворотне поширення навчається цікавих внутрішніх подань слів як векторів ознак, коли тренується передбачувати наступне слово в послідовності.
Нейронна мережа з часовою затримкою (англ. time delay neural network, TDNN) [en] (1987) поєднала згортки, спільні ваги та зворотне поширення. 1988 року Вей Чжан зі співавт. застосовували зворотне поширення до ЗНМ (спрощеного неокогнітрона зі згортковими взаємозв'язками між шарами ознак зображення та останнім повнозв'язним шаром) для абеткового розпізнавання. 1989 року Ян Лекун зі співавт. навчили ЗНМ розпізнавати рукописні поштові індекси на пошті. 1992 року Джуан Венг зі співавт. запропонували максимізувальне агрегування (англ. max-pooling) для ЗНМ, щоби допомогти з інваріантністю щодо найменшого зсуву та толерантністю до деформування для сприяння [en]. LeNet-5 (1998), 7-рівневу ЗНМ від Яна Лекуна зі співавт., яка класифікує цифри, було застосовано кількома банками для розпізнавання рукописних чисел на чеках, оцифрованих у зображення 32×32 пікселів.
Починаючи з 1988 року використання нейронних мереж перетворило галузь передбачування структур білків, зокрема, коли перші каскадні мережі тренувалися на профілях (матрицях), створених численними вирівнюваннями послідовностей.
У 1980-х роках зворотне поширення не працювало добре для глибоких НМПП та РНМ. Щоби подолати цю проблему, Юрген Шмідхубер (1992) запропонував ієрархію РНМ, попередньо тренованих по одному рівню самокерованим навчанням. Вона використовує [en] для навчання внутрішніх подань у кількох самоорганізованих масштабах часу. Це може істотно полегшувати подальше глибоке навчання. Цю ієрархію РНМ можливо згорнути (англ. collapse) в єдину РНМ шляхом [en] фрагментувальної (англ. chunker) мережі вищого рівня в автоматизувальну (англ. automatizer) мережу нижчого рівня. 1993 року фрагментувальник розв'язав завдання глибокого навчання, глибина якого перевищувала 1000.
1992 року Юрген Шмідхубер також опублікував альтернативу РНМ (англ. alternative to RNNs), яку зараз називають лінійним трансформером (англ. linear Transformer) або трансформером з лінеаризованою самоувагою (за винятком оператора нормування). Він навчається внутрішніх центрів уваги (англ. internal spotlights of attention): повільна нейронна мережа прямого поширення вчиться за допомогою градієнтного спуску керувати швидкими вагами іншої нейронної мережі через тензорні добутки самопороджуваних шаблонів збудження FROM і TO (званих тепер ключем, англ. key, та значенням, англ. value, самоуваги). Це відображення уваги (англ. attention mapping) швидких ваг застосовують до шаблону запиту.
Сучасний трансформер (англ. Transformer) запропонували Ашиш Васвані зі співавт. у своїй праці 2017 року «Увага — це все, що вам треба». Він поєднує це з оператором softmax та проєкційною матрицею. Трансформери все частіше обирають за модель для обробки природної мови. Багато сучасних великих мовних моделей, таких як ChatGPT, GPT-4 та BERT, використовують саме його. Трансформери також все частіше використовують у комп'ютернім баченні.
1991 року Юрген Шмідхубер також опублікував змагальні нейронні мережі (англ. adversarial neural networks), які змагаються між собою у формі антагоністичної гри, де виграш однієї мережі є програшем іншої. Перша мережа є породжувальною моделлю, яка моделює розподіл імовірності над образами на виході. Друга мережа навчається градієнтним спуском передбачувати реакцію середовища на ці образи. Це було названо «штучною цікавістю» (англ. "artificial curiosity").
2014 року Ян Ґудфелоу зі співавт. використали цей принцип у породжувальній змагальній мережі (англ. generative adversarial network, GAN). Тут реакція навколишнього середовища дорівнює 1 або 0 залежно від того, чи належить вихід першої мережі до заданого набору. Це можливо використовувати для створення реалістичних дипфейків. Відмінної якості зображення досягла [en] Nvidia (2018) на основі прогресивної породжувальної змагальної мережі (англ. Progressive GAN) Теро Карраса, Тімо Айли, Самулі Лайне та Яакко Лехтінена. Тут породжувач вирощується від малого до великого пірамідним чином.
Дипломну працю [en] (1991) його керівник Юрген Шмідхубер назвав «одним із найважливіших документів в історії машинного навчання». Хохрайтер визначив і проаналізував проблему зникання градієнту й запропонував для її розв'язання рекурентні залишкові з'єднання. Це призвело до появи методу глибокого навчання, званого довгою короткочасною пам'яттю (ДКЧП, англ. long short-term memory, LSTM), опублікованого в Neural Computation (1997). Рекурентні нейронні мережі ДКЧП можуть навчатися задач «дуже глибокого навчання» (англ. "very deep learning") з довгими шляхами розподілу внеску, які вимагають спогадів про події, що відбулися за тисячі дискретних часових кроків до цього. «Стандартну ДКЧП» (англ. "vanilla LSTM") із забувальним вентилем запропонували 1999 року [en], Шмідхубер та Фред Каммінс. ДКЧП стала найцитованішою нейронною мережею XX століття. 2015 року Рупеш Кумар Шрівастава, Клаус Ґрефф і Шмідхубер використали принцип ДКЧП для створення магістралевої мережі (англ. Highway network), нейронної мережі прямого поширення з сотнями шарів, набагато глибшої за попередні. 7 місяців потому, Каймін Хе, Сян'ю Чжан; Шаоцін Рен та Цзянь Сунь виграли [en] 2015 року з відкритовентильним або безвентильним варіантом магістралевої мережі, названим залишковою нейронною мережею (англ. Residual neural network). Вона стала найцитованішою нейронною мережею XXI століття.
Розвиток метал-оксид-напівпровідникових (МОН) схем надвисокого рівня інтеграції (НВІС) у формі технології комплементарних МОН (КМОН) дозволив збільшити [en] МОН-транзисторів у цифровій електроніці. Це забезпечило більшу потужність обробки для розробки практичних штучних нейронних мереж у 1980-х роках.
До ранніх успіхів нейронних мереж належали прогнозування фондового ринку, а 1995 року (переважно) безпілотний автомобіль.
Джефрі Гінтон зі співавт. (2006) запропонували навчання високорівневих подань з використанням послідовних шарів двійкових або дійснозначних латентних змінних з обмеженою машиною Больцмана для моделювання кожного шару. 2012 року Ин та Дін створили мережу, яка навчилася розпізнавати поняття вищого рівня, такі як коти, лише переглядаючи немічені зображення. Попереднє некероване тренування та збільшення обчислювальної потужності ГП та розподілених обчислень дозволили використовувати більші мережі, зокрема в задачах розпізнавання зображень і бачення, які стали відомі як «глибоке навчання».
Чирешан із колегами (2010) показали, що, незважаючи на проблему зникання градієнта, ГП роблять зворотне поширення придатним для багатошарових нейронних мереж прямого поширення. У період між 2009 та 2012 роками ШНМ почали вигравати нагороди в конкурсах із розпізнавання зображень, наближаючись до людського рівня виконання різних завдань, спочатку в розпізнаванні образів та розпізнаванні рукописного тексту. Наприклад, двоспрямована та багатовимірна довга короткочасна пам'ять (ДКЧП) [en] зі співавт. виграла три змагання з розпізнавання зв'язаного рукописного тексту 2009 року без будь-яких попередніх знань про три мови, яких потрібно було навчитися.
Чирешан із колегами створили перші розпізнавачі образів, які досягли людської/надлюдської продуктивності на таких перевірках як розпізнавання дорожніх знаків (IJCNN 2012).
Моделі
Цей розділ може бути [en] для читачів. (січень 2018) |
ШНМ почалися як спроба використати архітектуру людського мозку для виконання завдань, у яких звичайні алгоритми мали невеликий успіх. Незабаром вони переорієнтувалися на покращення емпіричних результатів, відмовившись від спроб залишатися вірними своїм біологічним попередникам. ШНМ мають здатність навчатися нелінійностей та складних зв'язків та моделювати їх. Це досягається тим, що нейрони з'єднуються за різними схемами, що дозволяє виходам одних нейронів стати входом інших. Ця мережа утворює орієнтований зважений граф.
Штучна нейронна мережа складається з імітацій нейронів. Кожен нейрон з'єднано з іншими вузлами (англ. nodes) ланками (англ. links), як біологічне з'єднання аксон—синапс—дендрит. Усі вузли, з'єднані ланками, отримують деякі дані й використовують їх для виконання певних операцій і завдань з даними. Кожна ланка має вагу (англ. weight), що визначає силу впливу одного вузла на інший, дозволяючи вагам обирати сигнал між нейронами.
Штучні нейрони
ШНМ складаються зі штучних нейронів, які концептуально походять від біологічних. Кожен штучний нейрон має входи та видає єдиний вихід, який можливо надсилати багатьом іншим нейронам. Входи (англ. inputs) можуть бути значеннями ознак зразка зовнішніх даних, таких як зображення чи документи, або вони можуть бути виходами інших нейронів. Виходи кінцевих нейронів виходу (англ. output neurons) нейронної мережі завершують завдання, наприклад, розпізнавання об'єкта на зображенні.
Щоби знайти вихід нейрона, ми беремо зважену суму всіх входів, зважених за вагами з'єднань (англ. connection weights) від входів до нейрона. Ми додаємо до цієї суми зміщення (англ. bias). Цю зважену суму іноді називають збудженням (англ. activation). Цю зважену суму потім пропускають крізь (зазвичай нелінійну) передавальну функцію (англ. activation function) для отримання виходу. Первинними входами є зовнішні дані, наприклад зображення та документи. Кінцеві виходи завершують завдання, наприклад, розпізнавання об'єкта на зображенні.
Будова
Нейрони зазвичай впорядковано в кілька шарів (англ. layers), особливо в глибокому навчанні. Нейрони одного шару з'єднуються лише з нейронами безпосередньо попереднього й наступного шарів. Шар, який отримує зовнішні дані, це шар входу (англ. input layer). Шар, який видає кінцевий результат, це шар виходу (англ. output layer). Між ними є нуль або більше прихованих шарів (англ. hidden layers). Використовують також одношарові (англ. single layer) та безшарові (англ. unlayered) мережі. Між двома шарами можливі кілька схем з'єднання. Вони можуть бути «повноз'єднаними» (англ. 'fully connected'), коли кожен нейрон одного шару з'єднується з кожним нейроном наступного шару. Вони можуть бути агрегувальними (англ. pooling), коли група нейронів одного шару з'єднується з одним нейроном наступного шару, знижуючи таким чином кількість нейронів у цьому шарі. Нейрони лише з такими зв'язками утворюють орієнтований ациклічний граф і відомі як мережі прямого поширення (англ. feedforward networks). Крім того, мережі, які дозволяють з'єднання до нейронів у тому же або попередніх шарах, відомі як рекурентні мережі (англ. recurrent networks).
Гіперпараметр
Гіперпараметр (англ. hyperparameter) — це сталий параметр, чиє значення встановлюють перед початком процесу навчання. Значення же параметрів (англ. parameters) виводять шляхом навчання. До прикладів гіперпараметрів належать темп навчання (англ. learning rate), кількість прихованих шарів і розмір пакета. Значення деяких гіперпараметрів можуть залежати від значень інших гіперпараметрів. Наприклад, розмір деяких шарів може залежати від загальної кількості шарів.
Навчання
Цей розділ містить , але походження тверджень у ньому через практично повну відсутність . (липень 2023) |
Навчання (англ. learning) — це пристосовування мережі для кращого виконання завдання шляхом розгляду вибіркових спостережень. Навчання включає підлаштовування ваг (і, можливо, порогів) мережі для підвищення точності результатів. Це здійснюється шляхом мінімізування спостережуваних похибок. Навчання завершено, якщо розгляд додаткових спостережень не знижує рівня похибки. Навіть після навчання рівень похибки зазвичай не досягає 0. Якщо навіть після навчання рівень похибки занадто високий, зазвичай потрібно змінити будову мережі. Практично це здійснюють шляхом визначення функції витрат (англ. cost function), яку періодично оцінюють протягом навчання. Поки її результат знижується, навчання триває. Витрати часто визначають як статистику, значення якої можливо лише наближувати. Виходи насправді є числами, тож коли похибка низька, різниця між результатом (майже напевно кіт) і правильною відповіддю (кіт) невелика. Навчання намагається знизити загальну відмінність над спостереженнями. Більшість моделей навчання можливо розглядати як пряме застосування теорії оптимізації та статистичного оцінювання.
Темп навчання
Темп навчання (англ. learning rate) визначає розмір коригувальних кроків, які здійснює модель для підлаштовування під похибку в кожному спостереженні. Високий темп навчання скорочує тривалість тренування, але з меншою кінцевою точністю, тоді як нижчий темп навчання займає більше часу, але з потенціалом до більшої точності. Такі оптимізації, як [en] (укр. «швидпошир»), переважно спрямовані на прискорення мінімізування похибки, тоді як інші вдосконалення переважно намагаються підвищити надійність. Щоби запобігти циклічним коливанням усередині мережі, таким як чергування ваг з'єднань, і покращити швидкість збігання, удосконалення використовують адаптивний темп навчання, який підвищується або знижується належним чином. Концепція імпульсу (англ. momentum) дозволяє зважувати баланс між градієнтом і попередньою зміною так, щоби підлаштовування ваги певною мірою залежало від попередньої зміни. Імпульс, близький до 0, додає ваги градієнтові, тоді як значення, близьке до 1, додає ваги крайній зміні.
Функція витрат
Хоча й можливо визначати функцію витрат ad hoc, вибір часто визначається бажаними властивостями цієї функції (такими як опуклість) або тим, що вона постає з моделі (наприклад, у ймовірнісній моделі апостеріорну ймовірність моделі можливо використовувати як обернені витрати).
Зворотне поширення
Зворотне поширення (англ. backpropagation) — це метод, який використовують для підлаштовування ваг з'єднань для компенсування кожної помилки, виявленої під час навчання. Величина помилки фактично розподіляється між з'єднаннями. Технічно зворотне поширення обчислює градієнт (похідну) функції витрат, пов'язаний із заданим станом, відносно ваг. Уточнювання ваг можливо здійснювати за допомогою стохастичного градієнтного спуску (англ. stochastic gradient descent) або інших методів, таких як машини екстремального навчання, «безпоширні» (англ. "no-prop") мережі, тренування без вертання, «безвагові» (англ. "weightless") мережі, та [en].[]
Парадигми навчання
Цей розділ містить , але походження тверджень у ньому через практично повну відсутність . (липень 2023) |
Машинне навчання зазвичай поділяють на три основні парадигми: кероване навчання, некероване навчання та навчання з підкріпленням. Кожна відповідає певному навчальному завданню.
Кероване навчання
Кероване навчання (англ. supervised learning) використовує набір пар входів і бажаних виходів. Завдання навчання полягає в тому, щоби для кожного входу видавати бажаний вихід. У цьому випадку функція витрат пов'язана з усуненням неправильного висновування. Витрати, які використовують зазвичай, це середньоквадратична похибка, яка намагається мінімізувати середню квадратичну похибку виходу мережі відносно бажаного виходу. Для керованого навчання підходять завдання на розпізнавання образів (також відоме як класифікування) та регресію (також відоме як наближення функції). Кероване навчання також застосовне до послідовних даних (наприклад, для розпізнавання рукописного тексту, мовлення та [en]). Його можливо розглядати як навчання з «учителем» у вигляді функції, яка забезпечує безперервний зворотний зв'язок щодо якості отриманих на даний момент рішень.
Некероване навчання
У некерованім навчанні (англ. unsupervised learning) дані входу надаються разом із функцією витрат, деякою функцією від даних та виходу мережі. Функція витрат залежить від завдання (області моделі) та будь-яких апріорних припущень (неявних властивостей моделі, її параметрів та спостережуваних змінних). Як тривіальний приклад розгляньмо модель , де стала, а витрати . Мінімізація цих витрат дає значення , що дорівнює середньому значенню даних. Функція витрат може бути набагато складнішою. Її вигляд залежить від застосування: наприклад, у стисненні вона може бути пов'язаною із взаємною інформацією між та , тоді як у статистичному моделюванні вона може бути пов'язаною з апостеріорною ймовірністю моделі за заданих даних (зверніть увагу, що в обох цих прикладах ці величини підлягають максимізуванню, а не мінімізуванню). Завдання, які підпадають під парадигму некерованого навчання, це зазвичай задачі оцінювання; до цих застосувань належать кластерування, оцінювання статистичних розподілів, стискання та фільтрування.
Навчання з підкріпленням
У таких застосуваннях як гра у відеоігри, діяч (англ. actor) виконує низку дій (англ. actions), отримуючи загалом непередбачуваний відгук від середовища після кожної з них. Мета полягає в тому, щоби виграти гру, тобто породити найбільшу кількість позитивних (з найменшими витратами) відгуків. У навчанні з підкріпленням (англ. reinforcement learning) мета полягає в тому, щоби зважити мережу (розробити стратегію, англ. policy) для виконання дій, яка мінімізує довгострокові (очікувані сукупні) витрати. У кожен момент часу діяч виконує дію, а середовище породжує спостереження та миттєві витрати відповідно до деяких (зазвичай невідомих) правил. Зазвичай правила й довгострокові витрати можливо лише оцінювати. У будь-який момент діяч вирішує, чи дослідити нові дії, щоб розкрити свої витрати, а чи скористатися попереднім знанням для швидшого виконання.
Формально середовище моделюють як марковський процес вирішування (МПВ) зі станами та діями . Оскільки переходи станів невідомі, замість них використовують розподіли ймовірності: розподіл миттєвих витрат , розподіл спостережень та розподіл переходів , тоді як стратегію визначають як умовний розподіл дій за даних спостережень. Взяті разом, вони визначають марковський ланцюг (МЛ). Мета полягає у виявленні МЛ із найменшими витратами.
ШНМ у таких застосуваннях слугують складовою, яка забезпечує навчання. Динамічне програмування у поєднанні з ШНМ (що дає нейродинамічне програмування) було застосовано до таких задач як ті, що стосуються [en], відеоігор, природокористування та медицини, через здатність ШНМ пом'якшувати втрати точності навіть при зменшенні щільності ґратки [en] для чисельного наближення розв'язків задач керування. Завдання, які підпадають під парадигму навчання з підкріпленням, це завдання керування, ігри та інші послідовні завдання ухвалювання рішень.
Самонавчання
Самонавчання (англ. self-learning) в нейронних мережах було запропоновано 1982 року разом із нейронною мережею, здатною до самонавчання, названою поперечинним адаптивним масивом (ПАМ, англ. crossbar adaptive array, CAA). Це система лише з одним входом, ситуацією s, й лише одним виходом, дією (або поведінкою) a. Вона не має ані входу зовнішніх порад, ані входу зовнішнього підкріплення з боку середовища. ПАМ обчислює поперечним чином як рішення щодо дій, так і емоції (почуття) щодо виниклих ситуацій. Ця система керується взаємодією між пізнанням та емоціями. За заданої матриці пам'яті, W =||w(a, s)||, поперечинний алгоритм самонавчання на кожній ітерації виконує наступне обчислення:
У ситуації s виконати дію a; Отримати наслідкову ситуацію s'; Обчислити емоцію перебування в наслідковій ситуації v(s'); Уточнити поперечинну пам'ять w'(a,s) = w(a,s) + v(s').
Поширюване зворотно значення (вторинне підкріплення, англ. secondary reinforcement) — це емоція щодо наслідків ситуації. ПАМ існує у двох середовищах: одне — поведінкове середовище, де вона поводиться, а інше — генетичне середовище, де вона спочатку й лише один раз отримує початкові емоції щодо ситуацій, з якими можливо зіткнутися в поведінковому середовищі. Отримавши геномний вектор (видовий вектор, англ. genome vector, species vector) із генетичного середовища, ПАМ навчатиметься цілеспрямованої поведінки в поведінковому середовищі, що містить як бажані, так і небажані ситуації.
Нейроеволюція
Нейроеволюція (англ. neuroevolution) може створювати топології та ваги нейронної мережі за допомогою еволюційного обчислення. Завдяки сучасним вдосконаленням нейроеволюція конкурує зі складними підходами градієнтного спуску. Одна з переваг нейроеволюції полягає в тому, що вона може бути менш схильною потрапляти в «глухий кут».
Стохастична нейронна мережа
Стохастичні нейронні мережі (англ. stochastic neural networks), що походять від [en], це один з типів штучних нейронних мереж, побудований шляхом введення випадкових варіацій у мережу, або надаванням штучним нейронам мережі стохастичних передавальних функцій, або надаванням їм стохастичних ваг. Це робить їх корисними інструментами для розв'язування задач оптимізації, оскільки випадкові флуктуації допомагають мережі уникати локальних мінімумів. Стохастичні нейронні мережі, треновані за допомогою баєсового підходу, відомі як баєсові нейронні мережі (англ. Bayesian neural network).
Інші
У баєсовій системі обирають розподіл над набором дозволених моделей таким чином, щоби мінімізувати витрати. Іншими алгоритмами навчання є еволюційні методи, [en], імітування відпалювання, очікування-максимізація, [en] та метод рою частинок. Збіжна рекурсія (англ. convergent recursion) — це алгоритм навчання для нейронних мереж [en] (АКММ, англ. cerebellar model articulation controller, CMAC).
Режими
Цей розділ містить , але походження тверджень у ньому через практично повну відсутність . (липень 2023) |
Є два режими навчання: стохастичний (англ. stochastic) та пакетний (англ. batch). У стохастичному навчанні кожен вхід створює підлаштовування ваг. У пакетному навчанні ваги підлаштовують на основі пакету входів, накопичуючи похибки в пакеті. Стохастичне навчання вносить «шум» до процесу, використовуючи локальний градієнт, розрахований з однієї точки даних; це знижує шанс застрягання мережі в локальних мінімумах. Проте пакетне навчання зазвичай дає швидший і стабільніший спуск до локального мінімуму, оскільки кожне уточнення виконується в напрямку усередненої похибки пакета. Поширеним компромісом є використання «мініпакетів» (англ. "mini-batches"), невеликих пакетів зі зразками в кожному пакеті, обраними стохастично з усього набору даних.
Типи
ШНМ еволюціювали у широке сімейство методик, які вдосконалили рівень останніх досягнень у багатьох областях. Найпростіші типи мають один або кілька статичних складових, включно з кількістю вузлів, кількістю шарів, вагами вузлів і топологією. Динамічні типи дозволяють одному або декільком із них еволюціювати шляхом навчання. Останнє набагато складніше, але може скорочувати періоди навчання й давати кращі результати. Деякі типи дозволяють/вимагають навчання «під керуванням» оператора, тоді як інші працюють незалежно. Деякі типи працюють виключно апаратно, тоді як інші є суто програмними й працюють на комп'ютерах загального призначення.
До деяких з основних проривів належать: згорткові нейронні мережі, які виявилися особливо успішними в обробці візуальних та інших двовимірних даних; довга короткочасна пам'ять, що дозволяє уникати проблеми зникання градієнта й може обробляти сигнали, які містять суміш низько- та високочастотних складових, що допомагає в розпізнаванні мовлення з великим словниковим запасом, синтезуванні мовлення з тексту та фотореалістичних головах, що розмовляють; конкурентні мережі (англ. competitive networks), такі як породжувальні змагальні мережі, в яких численні мережі (різної структури) змагаються одна з одною в таких завданнях як перемога в грі, або введення опонента в оману щодо автентичності входу.
Побудова мереж
Пошук нейронної архітектури (ПНА, англ. neural architecture search, NAS) використовує машинне навчання для автоматизування побудови ШНМ. Різні підходи до ПНА побудували мережі, добре порівнянні з системами, розробленими вручну. Основним алгоритмом цього пошуку є пропонувати модель-кандидатку, оцінювати її за набором даних, і використовувати результати як зворотний зв'язок для навчання мережі ПНА. Серед доступних систем — АвтоМН та AutoKeras.
До проблем побудови належать визначення кількості, типу та з'єднаності рівнів мережі, а також розміру кожного, та типу з'єднання (повне, агрегувальне, …).
Гіперпараметри також слід визначати як частину побудови (їх не навчаються), керуючи такими питаннями як кількість нейронів у кожному шарі, темп навчання, крок, крок фільтрів (англ. stride), глибина, рецептивне поле та доповнення (для ЗНМ) тощо.
Використання
Цей розділ не містить . (липень 2023) |
Використання штучних нейронних мереж вимагає розуміння їхніх характеристик.
- Вибір моделі: Це залежить від подання даних та застосування. Надмірно складні моделі навчаються повільно.
- Алгоритм навчання: Існують численні компроміси між алгоритмами навчання. Майже кожен алгоритм працюватиме добре з правильними гіперпараметрами для тренування на певному наборі даних. Проте обрання та налаштування алгоритму для навчання на небачених даних вимагає значного експериментування.
- Робастність: Якщо модель, функцію витрат та алгоритм навчання обрано належним чином, то отримана ШНМ може стати робастною.
Можливості ШНМ підпадають під наступні широкі категорії:
- [en], або регресійний аналіз, включно з передбачуванням часових рядів, [en] та моделюванням.
- Класифікування, включно з розпізнаванням образів та послідовностей, [en] та послідовним ухвалюванням рішень.
- Обробка даних, включно з фільтруванням, кластеруванням, [en] та стисканням.
- Робототехніка, включно зі скеровуванням маніпуляторів та протезів.
Застосування
Завдяки своїй здатності відтворювати та моделювати нелінійні процеси штучні нейронні мережі знайшли застосування в багатьох дисциплінах. До сфер застосування належать [en] та керування ними (керування транспортними засобами, передбачування траєкторії, керування процесами, природокористування), квантова хімія, [en], розпізнавання образів (радарні системи, встановлювання облич, класифікування сигналів, тривимірна відбудова, розпізнавання об'єктів тощо), аналіз даних давачів, розпізнавання послідовностей (розпізнавання жестів, мовлення, рукописного та друкованого тексту), медична діагностика, фінанси (наприклад, [en] моделі для окремих фінансових довготривалих прогнозів та [en]), добування даних, унаочнювання, машинний переклад, соціальномережне фільтрування та фільтрування [en]. ШНМ використовували для діагностування кількох типів раку та для відрізнювання високоінвазивних ліній ракових клітин від менш інвазивних з використанням лише інформації про форму клітин.
ШНМ використовували для прискорювання аналізу надійності інфраструктури, що піддається стихійним лихам, і для прогнозування просідання фундаментів. Також може бути корисним пом'якшувати повені шляхом використання ШНМ для моделювання дощового стоку. ШНМ також використовували для побудови чорноскринькових моделей в геонауках: гідрології, моделюванні океану та [en], та геоморфології. ШНМ використовують у кібербезпеці з метою розмежовування законної діяльності від зловмисної. Наприклад, машинне навчання використовували для класифікування зловмисного програмного забезпечення під Android, для визначання доменів, що належать суб'єктам загрози, і для виявляння URL-адрес, які становлять загрозу безпеці. Ведуться дослідження систем ШНМ, призначених для випробування на проникнення, для виявляння бот-мереж, шахрайства з кредитними картками та мережних вторгнень.
ШНМ пропонували як інструмент для розв'язування частинних диференціальних рівнянь у фізиці та моделювання властивостей багаточастинкових [en]. У дослідженні мозку ШНМ вивчали короткочасну поведінку окремих нейронів, динаміку нейронних ланцюгів, що виникає через взаємодію між окремими нейронами, та те, як поведінка може виникати з абстрактних нейронних модулів, які подають цілі підсистеми. Дослідження розглядали довгострокову та короткочасну пластичність нейронних систем та їхній зв'язок із навчанням і пам'яттю від окремого нейрона до системного рівня.
Теоретичні властивості
Обчислювальна потужність
Як доведено теоремою Цибенка, багатошаровий перцептрон це [en] наближувач функцій. Проте це доведення не конструктивне щодо кількості необхідних нейронів, топології мережі, ваг, та параметрів навчання.
Особлива рекурентна архітектура з раціональнозначними вагами (на противагу до повноточнісних дійснозначних ваг) має потужність універсальної машини Тюрінга, використовуючи скінченну кількість нейронів та стандартні лінійні з'єднання. Крім того, використання ірраціональних значень для ваг дає в результаті машину з надтюрінговою потужністю.[]
Ємність
Властивість «ємності» (англ. "capacity") моделі відповідає її здатності моделювати будь-яку задану функцію. Вона пов'язана з обсягом інформації, який можливо зберегти в мережі, та з поняттям складності. Серед спільноти відомі два поняття ємності: інформаційна ємність та ВЧ-розмірність. Інформаційну ємність (англ. information capacity) перцептрона ретельно обговорено в книзі сера Девіда Маккея, яка підсумовує роботу Томаса Ковера. Ємність мережі стандартних нейронів (не згорткових) можливо отримувати за чотирма правилами, які випливають із розуміння нейрона як електричного елемента. Інформаційна ємність охоплює функції, які можливо змоделювати мережею, за довільних даних входу. Друге поняття — ВЧ-розмірність (англ. VC Dimension). ВЧ-розмірність використовує принципи теорії міри та знаходить максимальну ємність за найкращих можливих обставин. Це за даних входу певного вигляду. Як зазначено у , ВЧ-розмірність для довільних входів становить половину інформаційної ємності перцептрона. ВЧ-розмірність для довільних точок іноді називають ємністю пам'яті (англ. Memory Capacity).
Збіжність
Моделі можуть не збігатися послідовно на єдиному розв'язку, по-перше, через можливість існування локальних мінімумів, залежно від функції витрат та моделі. По-друге, вживаний метод оптимізації може не гарантувати збіжності, якщо він починається далеко від будь-якого локального мінімуму. По-третє, для досить великих даних або параметрів деякі методи стають непрактичними.
Інша варта згадки проблема полягає в тому, що навчання може проходити крізь деяку сідлову точку, що може призводити до збігання в неправильному напрямку.
Поведінка збіжності певних типів архітектур ШНМ зрозуміліша, ніж інших. Коли ширина мережі наближається до нескінченності, ШНМ добре описується своїм розвиненням у ряд Тейлора першого порядку протягом навчання, і тому успадковує поведінку збіжності [en]. Інший приклад: коли параметри малі, спостерігається, що ШНМ часто допасовуються до цільових функцій від низьких до високих частот. Таку поведінку називають спектральним зміщенням (англ. spectral bias) або частотним принципом (англ. frequency principle) нейронних мереж. Це явище протилежне поведінці деяких добре вивчених ітераційних числових схем, таких як метод Якобі. Було виявлено, що глибші нейронні мережі схильніші до низькочастотних функцій.
Узагальнювальність та статистика
Цей розділ містить , але походження тверджень у ньому через практично повну відсутність . (липень 2023) |
Застосування, метою яких є створення системи, що добре узагальнюється до невідомих зразків, стикаються з можливістю перетренування. Воно виникає в заплутаних або надмірно визначених системах, коли ємність мережі значно перевищує потребу у вільних параметрах. Існує два підходи, як впоруватися з перетренуванням. Перший полягає у використанні перехресного затверджування та подібних методів для перевірки наявності перенавчання, та обиранні гіперпараметрів для зведення похибки узагальнення до мінімуму.
Другий полягає у використанні якогось із видів регуляризації. Це поняття виникає в імовірнісній (баєсовій) системі, де регуляризацію можливо виконувати шляхом обирання більшої апріорної ймовірності над простішими моделями, але також і в теорії статистичного навчання, де метою є зводити до мінімуму дві величини: «емпіричний ризик» та «структурний ризик», що грубо відповідають похибці над тренувальним набором та передбачуваній похибці в небачених даних через перенавчання.
Нейронні мережі керованого навчання, які використовують як функцію витрат середньоквадратичну похибку (СКП), для визначення довіри до тренованої моделі можуть використовувати формальні статистичні методи. СКП на затверджувальному наборі можливо використовувати як оцінку дисперсії. Це значення потім можливо використовувати для обчислення довірчого інтервалу виходу мережі, виходячи з нормального розподілу. Здійснений таким чином аналіз довіри статистично чинний, поки розподіл імовірності виходу залишається незмінним, і не вноситься змін до мережі.
Призначення нормованої експоненційної функції, узагальнення логістичної функції, як передавальної функції шару виходу нейронної мережі (або нормованої експоненційної складової в нейронній мережі на основі складових) для категорійних цільових змінних, дає можливість інтерпретувати виходи як апостеріорні ймовірності. Це корисно для класифікування, оскільки дає міру впевненості в класифікаціях.
Нормована експоненційна функція (англ. softmax) це
Критика
Тренування
Поширена критика нейронних мереж, особливо в робототехніці, полягає в тому, що для роботи в реальному світі вони вимагають забагато тренування. До потенційних розв'язань належить випадкове переставляння тренувальних зразків, застосування алгоритму чисельної оптимізації, який не вимагає завеликих кроків при зміні з'єднань мережі слідом за зразком, групування зразків до так званих міні-пакетів (англ. mini-batches) та/або запровадження алгоритму рекурсивних найменших квадратів для [en].
Теорія
Головна претензія[] ШНМ полягає в тому, що вони втілюють нові потужні загальні принципи обробки інформації. Ці принципи погано визначені. Часто стверджують,[] що вони виникають із самої мережі. Це дозволяє описувати просту статистичну асоціацію (основну функцію штучних нейронних мереж) як навчання або розпізнавання. 1997 року [en] зауважив, що, в результаті, штучні нейронні мережі мають «риси чогось дармового, чогось наділеного особливою аурою ледарства та виразної відсутності зацікавлення хоч би тим, наскільки добрими ці комп'ютерні системи є. Жодного втручання людської руки (та розуму), розв'язки знаходяться мов чарівною силою, і ніхто, схоже, так нічого й не навчився». Однією з відповідей Дьюдні є те, що нейронні мережі розв'язують багато складних і різноманітних завдань, починаючи від автономного літального апарата до виявляння шахрайства з кредитними картками, й завершуючи опануванням гри в Ґо.
Письменник у галузі технологій Роджер Бріджмен прокоментував це так:
Нейронні мережі, наприклад, знаходяться на лаві підсудних не лише через те, що їх розрекламували до небес (хіба ні?), а й через те, що ви можете створити успішну мережу, не розуміючи, як вона працює: купа чисел, які фіксують її поведінку, ймовірно, буде «непрозорою, нечитабельною таблицею... нічого не вартою як науковий ресурс».Незважаючи на свою експресивну заяву про те, що наука — це не технологія, Дьюдні, здається, ганьбить нейронні мережі як погану науку, тоді як більшість із тих, хто їх розробляє, просто намагаються бути добрими інженерами. Нечитабельна таблиця, яку може читати корисна машина, все одно буде вельми варта того, щоби її мати.
Оригінальний текст (англ.)Neural networks, for instance, are in the dock not only because they have been hyped to high heaven, (what hasn't?) but also because you could create a successful net without understanding how it worked: the bunch of numbers that captures its behaviour would in all probability be "an opaque, unreadable table...valueless as a scientific resource".
In spite of his emphatic declaration that science is not technology, Dewdney seems here to pillory neural nets as bad science when most of those devising them are just trying to be good engineers. An unreadable table that a useful machine could read would still be well worth having.
Біологічний мозок використовує як неглибокі, так і глибокі схеми, як повідомляє анатомія мозку, демонструючи широкий спектр інваріантності. Венг стверджував, що мозок самостійно встановлює зв'язки в основному відповідно до статистики сигналів, і тому послідовний каскад не може вловити всі основні статистичні залежності.
Апаратне забезпечення
Великі й ефективні нейронні мережі вимагають значних обчислювальних ресурсів. У той час як мозок має апаратне забезпечення, ідеально пристосоване для задачі обробки сигналів графом нейронів, імітація навіть спрощеного нейрону на архітектурі фон Неймана може споживати величезну кількість пам'яті та дискового простору. Крім того, розробникові часто потрібно передавати сигнали багатьма цими з'єднаннями та пов'язаними з ними нейронами, що вимагає величезної обчислювальної потужності та часу ЦП.
Шмідхубер зазначив, що відродження нейронних мереж у двадцять першому сторіччі значною мірою обумовлено досягненнями в апаратному забезпеченні: з 1991 до 2015 року обчислювальна потужність, особливо забезпечувана ГПЗП (на ГП), зросла приблизно в мільйон разів, зробивши стандартний алгоритм зворотного поширення придатним для навчання мереж, на кілька рівнів глибших, ніж раніше. Використання прискорювачів, таких як ПКВМ та ГП, може скорочувати тривалість тренування з місяців до днів.
Нейроморфна інженерія або [en] розв'язує проблему апаратного забезпечення безпосередньо, створюючи мікросхеми, відмінні від фон нейманових, для безпосереднього втілення нейронних мереж у схемах. Ще одна мікросхема, оптимізована для обробки нейронних мереж, зветься тензорним процесором або ТП (англ. Tensor Processing Unit, TPU).
Практичні контрприклади
Аналізувати те, чого навчилася ШНМ, набагато легше, ніж аналізувати те, чого навчилася біологічна нейронна мережа. Крім того, дослідники, які беруть участь у пошуку алгоритмів навчання для нейронних мереж, поступово розкривають загальні принципи, що дозволяють машині, що вчиться, бути успішною. Наприклад, локальне й нелокальне навчання, та неглибока й глибока архітектура.
Гібридні підходи
Прибічники [en] моделей (що поєднують нейронні мережі та символьні підходи) стверджують, що така суміш може краще вловлювати механізми людського розуму.
Галерея
- Одношарова штучна нейронна мережа прямого поширення. Стрілки, що виходять з , для наочності опущено. Є p входів до цієї мережі, й q виходів. У цій системі значення q-того виходу обчислюватиметься як .
- Двошарова штучна нейронна мережа прямого поширення.
- Штучна нейронна мережа.
- Граф залежностей ШНМ.
- Одношарова штучна нейронна мережа прямого поширення з 4 входами, 6 прихованими вузлами, та 2 виходами. Для заданого стану положення та напряму виводить значення керування для коліс.
- Двошарова штучна нейронна мережа прямого поширення з 8 входами, 2×8 прихованими вузлами, та 2 виходами. Для заданого стану положення, напряму та інших змінних середовища, видає значення керування для маневрових двигунів.
- Паралельно-конвеєрна структура нейронної мережі [en]. Цей алгоритм навчання здатен збігатися за один крок.
Див. також
- Автокодувальник
- ADALINE
- [en]
- [en]
- [en]
- [en]
- Квантова нейронна мережа
- [en]
- [en]
- [en]
- Нейронний газ
- [en]
- Паралельно розподілена обробка
- [en]
- Проєкт Blue Brain
- [en]
- Рекурентні нейронні мережі
- [en]
- [en]
- [en]
- Філософія штучного інтелекту
Виноски
- Для керування [en]» 1995-го року знадобилося «лише кілька випадків людської допомоги».
Примітки
- Hardesty, Larry (14 квітня 2017). Explained: Neural networks. MIT News Office. Процитовано 2 червня 2022. (англ.)
- Yang, Z.R.; Yang, Z. (2014). Comprehensive Biomedical Physics. Karolinska Institute, Stockholm, Sweden: Elsevier. с. 1. ISBN . оригіналу за 28 липня 2022. Процитовано 28 липня 2022. (англ.)
- Mansfield Merriman, "A List of Writings Relating to the Method of Least Squares" (англ.)
- Stigler, Stephen M. (1981). Gauss and the Invention of Least Squares. Ann. Stat. 9 (3): 465—474. doi:10.1214/aos/1176345451. (англ.)
- Bretscher, Otto (1995). Linear Algebra With Applications (вид. 3rd). Upper Saddle River, NJ: Prentice Hall. (англ.)
- Schmidhuber, Juergen (2022). Annotated History of Modern AI and Deep Learning. arXiv:2212.11279 [cs.NE]. (англ.)
- (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN . (англ.)
- Brush, Stephen G. (1967). History of the Lenz-Ising Model. Reviews of Modern Physics. 39 (4): 883—893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883. (англ.)
- Amari, Shun-Ichi (1972). Learning patterns and pattern sequences by self-organizing nets of threshold elements. IEEE Transactions. C (21): 1197—1206. (англ.)
- Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences. 79 (8): 2554—2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. PMC 346238. PMID 6953413. (англ.)
- McCulloch, Warren; Walter Pitts (1943). A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics. 5 (4): 115—133. doi:10.1007/BF02478259. (англ.)
- Kleene, S.C. (1956). Representation of Events in Nerve Nets and Finite Automata. Annals of Mathematics Studies. № 34. Princeton University Press. с. 3—41. Процитовано 17 червня 2017. (англ.)
- Hebb, Donald (1949). The Organization of Behavior. New York: Wiley. ISBN . (англ.)
- Farley, B.G.; W.A. Clark (1954). Simulation of Self-Organizing Systems by Digital Computer. IRE Transactions on Information Theory. 4 (4): 76—84. doi:10.1109/TIT.1954.1057468. (англ.)
- Haykin (2008) Neural Networks and Learning Machines, 3rd edition (англ.)
- Rosenblatt, F. (1958). The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain. Psychological Review. 65 (6): 386—408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029. S2CID 12781225. (англ.)
- Werbos, P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. (англ.)
- Rosenblatt, Frank (1957). The Perceptron—a perceiving and recognizing automaton. Report 85-460-1. Cornell Aeronautical Laboratory. (англ.)
- Olazaran, Mikel (1996). A Sociological Study of the Official History of the Perceptrons Controversy. Social Studies of Science. 26 (3): 611—659. doi:10.1177/030631296026003005. JSTOR 285702. S2CID 16786738. (англ.)
- Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN . (англ.)
- Schmidhuber, J. (2015). Deep Learning in Neural Networks: An Overview. Neural Networks. 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509. (англ.)
- Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation. (англ.)
- Ivakhnenko, A. G.; Lapa, Valentin Grigorʹevich (1967). Cybernetics and forecasting techniques. American Elsevier Pub. Co. (англ.)
- Robbins, H.; Monro, S. (1951). A Stochastic Approximation Method. The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586. (англ.)
- (1967). A theory of adaptive pattern classifier. IEEE Transactions. EC (16): 279—307. (англ.)
- Kohonen, Teuvo; Honkela, Timo (2007). Kohonen Network. Scholarpedia. 2 (1): 1568. Bibcode:2007SchpJ...2.1568K. doi:10.4249/scholarpedia.1568. (англ.)
- Kohonen, Teuvo (1982). Self-Organized Formation of Topologically Correct Feature Maps. Biological Cybernetics. 43 (1): 59—69. doi:10.1007/bf00337288. S2CID 206775459. (англ.)
- Von der Malsburg, C (1973). Self-organization of orientation sensitive cells in the striate cortex. Kybernetik. 14 (2): 85—100. doi:10.1007/bf00288907. PMID 4786750. S2CID 3351573. (англ.)
- Fukushima, Kunihiko (1980). Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position (PDF). Biological Cybernetics. 36 (4): 193—202. doi:10.1007/BF00344251. PMID 7370364. S2CID 206775608. Процитовано 16 листопада 2013. (англ.)
- Fukushima, K. (1969). Visual feature extraction by a multilayered network of analog threshold elements. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322—333. doi:10.1109/TSSC.1969.300225. (англ.)
- Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 жовтня 2017). Searching for Activation Functions. arXiv:1710.05941 [cs.NE]. (англ.)
- Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (англ.). Open court publishing Company. (англ.)
- (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (фін.). University of Helsinki. с. 6—7.
- (1976). Taylor expansion of the accumulated rounding error. BIT Numerical Mathematics. 16 (2): 146—160. doi:10.1007/bf01931367. S2CID 122357351. (англ.)
- Griewank, Andreas (2012). Who Invented the Reverse Mode of Differentiation?. Optimization Stories. Documenta Matematica, Extra Volume ISMP. с. 389—400. S2CID 15568746. (англ.)
- Griewank, Andreas; (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN . (англ.)
- Rosenblatt, Frank (1962). Principles of Neurodynamics. Spartan, New York. (англ.)
- (1960). Gradient theory of optimal flight paths. ARS Journal. 30 (10): 947—954. doi:10.2514/8.5282. (англ.)
- A gradient method for optimizing multi-stage allocation processes. Proceedings of the Harvard Univ. Symposium on digital computers and their applications. April 1961. (англ.)
- Schmidhuber, Jürgen (2015). Deep Learning. Scholarpedia. 10 (11): 85—117. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832. (англ.)
- Dreyfus, Stuart E. (1 вересня 1990). Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure. Journal of Guidance, Control, and Dynamics. 13 (5): 926—928. Bibcode:1990JGCD...13..926D. doi:10.2514/3.25422. ISSN 0731-5090. (англ.)
- Mizutani, E.; ; Nishio, K. (2000). On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. IJCNN 2000. Neural Computing: New Challenges and Perspectives for the New Millennium. IEEE: 167–172 vol.2. doi:10.1109/ijcnn.2000.857892. ISBN . S2CID 351146. (англ.)
- (1973). The computational solution of optimal control problems with time lag. IEEE Transactions on Automatic Control. 18 (4): 383—385. doi:10.1109/tac.1973.1100330. (англ.)
- (1982). Applications of advances in nonlinear sensitivity analysis (PDF). System modeling and optimization. Springer. с. 762—770. (PDF) оригіналу за 14 квітня 2016. Процитовано 2 липня 2017. (англ.)
- David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams, "Learning representations by back-propagating errors [ 8 березня 2021 у Wayback Machine.]," Nature', 323, pages 533–536 1986. (англ.)
- Waibel, Alex (December 1987). Phoneme Recognition Using Time-Delay Neural Networks. Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan. (англ.)
- [en] et al., Phoneme Recognition Using Time-Delay Neural Networks IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 March 1989. (англ.)
- Zhang, Wei (1988). Shift-invariant pattern recognition neural network and its optical architecture. Proceedings of Annual Conference of the Japan Society of Applied Physics. (англ.)
- Zhang, Wei (1990). Parallel distributed processing model with local space-invariant interconnections and its optical architecture. Applied Optics. 29 (32): 4790—7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID 20577468. (англ.)
- LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1, pp. 541–551, 1989. (англ.)
- J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively [ 21 вересня 2017 у Wayback Machine.]," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576–581, June 1992. (англ.)
- J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images [ 21 вересня 2017 у Wayback Machine.]," Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121–128, May 1993. (англ.)
- J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron [ 25 січня 2021 у Wayback Machine.]," International Journal of Computer Vision, vol. 25, no. 2, pp. 105–139, Nov. 1997. (англ.)
- LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). Gradient-based learning applied to document recognition (PDF). Proceedings of the IEEE. 86 (11): 2278—2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. S2CID 14542261. Процитовано 7 жовтня 2016. (англ.)
- Qian, Ning, and Terrence J. Sejnowski. "Predicting the secondary structure of globular proteins using neural network models." Journal of molecular biology 202, no. 4 (1988): 865-884. (англ.)
- Bohr, Henrik, Jakob Bohr, Søren Brunak, Rodney MJ Cotterill, Benny Lautrup, Leif Nørskov, Ole H. Olsen, and Steffen B. Petersen. "Protein secondary structure and homology by neural networks The α-helices in rhodopsin." FEBS letters 241, (1988): 223-228 (англ.)
- Rost, Burkhard, and Chris Sander. "Prediction of protein secondary structure at better than 70% accuracy." Journal of molecular biology 232, no. 2 (1993): 584-599. (англ.)
- Schmidhuber, Jürgen (1992). Learning complex, extended sequences using the principle of history compression (PDF). Neural Computation. 4 (2): 234—242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () (англ.) - Клейн, О. М. (2023). Метод та засоби виявлення аномалій в кіберфізичних системах комп’ютерного зору (кваліфікаційна робота магістра) (укр.). Хмельницький: Хмельницький національний університет.
- Schmidhuber, Jürgen (1993). Habilitation Thesis (PDF).
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () (англ.) - Schmidhuber, Jürgen (1 листопада 1992). Learning to control fast-weight memories: an alternative to recurrent nets. Neural Computation. 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347. (англ.)
- Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021. Springer. с. 9355—9366. (англ.)
- Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz; Kaiser, Lukasz; Belanger, David; Colwell, Lucy; Weller, Adrian (2020). Rethinking Attention with Performers. arXiv:2009.14794 [cs.CL]. (англ.)
- Schmidhuber, Jürgen (1993). Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets. ICANN 1993. Springer. с. 460—463. (англ.)
- Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (12 червня 2017). Attention Is All You Need. arXiv:1706.03762 [cs.CL]. (англ.)
- Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. с. 38—45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506. (англ.)
- He, Cheng (31 грудня 2021). Transformer in CV. Transformer in CV. Towards Data Science. (англ.)
- Schmidhuber, Jürgen (1991). A possibility for implementing curiosity and boredom in model-building neural controllers. Proc. SAB'1991. MIT Press/Bradford Books. с. 222—227. (англ.)
- Schmidhuber, Jürgen (2010). Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010). IEEE Transactions on Autonomous Mental Development. 2 (3): 230—247. doi:10.1109/TAMD.2010.2056368. S2CID 234198. (англ.)
- Schmidhuber, Jürgen (2020). Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991). Neural Networks (англ.). 127: 58—66. arXiv:1906.04493. doi:10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336. (англ.)
- Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). с. 2672—2680. (PDF) оригіналу за 22 листопада 2019. Процитовано 20 серпня 2019. (англ.)
- Prepare, Don't Panic: Synthetic Media and Deepfakes. witness.org. оригіналу за 2 грудня 2020. Процитовано 25 листопада 2020. (англ.)
- GAN 2.0: NVIDIA's Hyperrealistic Face Generator. SyncedReview.com. 14 грудня 2018. Процитовано 3 жовтня 2019. (англ.)
- Karras, Tero; Aila, Timo; Laine, Samuli; Lehtinen, Jaakko (1 жовтня 2017). Progressive Growing of GANs for Improved Quality, Stability, and Variation. arXiv:1710.10196. (англ.)
- S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen [ 2015-03-06 у Wayback Machine.]," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991. (нім.)
- Hochreiter, S. та ін. (15 січня 2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. У Kolen, John F.; Kremer, Stefan C. (ред.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN . (англ.)
- Hochreiter, Sepp; Schmidhuber, Jürgen (1 листопада 1997). Long Short-Term Memory. Neural Computation. 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014. (англ.)
- Schmidhuber, J. (2015). Deep Learning in Neural Networks: An Overview. Neural Networks. 61: 85—117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. (англ.)
- Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). Learning to forget: Continual prediction with LSTM. 9th International Conference on Artificial Neural Networks: ICANN '99. Т. 1999. с. 850—855. doi:10.1049/cp:19991218. ISBN . (англ.)
- Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 травня 2015). Highway Networks. arXiv:1505.00387 [cs.LG]. (англ.)
- Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). Training Very Deep Networks. Advances in Neural Information Processing Systems. Curran Associates, Inc. 28: 2377—2385. (англ.)
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, US: IEEE. с. 770—778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN . (англ.)
- ; Ismail, Mohammed (8 травня 1989). Analog VLSI Implementation of Neural Systems (PDF). The Kluwer International Series in Engineering and Computer Science. Т. 80. Norwell, MA: [en]. doi:10.1007/978-1-4613-1639-8. ISBN . оригіналу за 6 листопада 2019. Процитовано 24 січня 2020. (англ.)
- (22 September 2015). chapter 4. The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. Basic Books. ISBN . (англ.)
- (1986). Information processing in dynamical systems: Foundations of harmony theory.. У D. E. Rumelhart; J. L. McClelland; PDP Research Group (ред.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Т. 1. с. 194–281. ISBN . (англ.)
- Ng, Andrew; Dean, Jeff (2012). Building High-level Features Using Large Scale Unsupervised Learning. arXiv:1112.6209 [cs.LG]. (англ.)
- Ian Goodfellow and Yoshua Bengio and Aaron Courville (2016). Deep Learning. MIT Press. оригіналу за 16 квітня 2016. Процитовано 1 червня 2016. (англ.)
- Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 вересня 2010). Deep, Big, Simple Neural Nets for Handwritten Digit Recognition. Neural Computation. 22 (12): 3207—3220. arXiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673. (англ.)
- Dominik Scherer, Andreas C. Müller, and Sven Behnke: "Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition [ 3 квітня 2018 у Wayback Machine.]," In 20th International Conference Artificial Neural Networks (ICANN), pp. 92–101, 2010. DOI:10.1007/978-3-642-15825-4_10. (англ.)
- Інтерв'ю Kurzweil AI 2012 року [ 31 серпня 2018 у Wayback Machine.] з Юргеном Шмідхубером про вісім змагань, виграних його командою Глибокого навчання в 2009—2012 роках (англ.)
- . www.kurzweilai.net. Архів оригіналу за 31 серпня 2018. Процитовано 16 червня 2017. (англ.)
- Graves, Alex; Schmidhuber, Jürgen (2009). Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks (PDF). У Koller, D.; Schuurmans, Dale; Bengio, Yoshua; Bottou, L. (ред.). Advances in Neural Information Processing Systems 21 (NIPS 2008). Neural Information Processing Systems (NIPS) Foundation. с. 545—552. ISBN . (англ.)
- Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (May 2009). A Novel Connectionist System for Unconstrained Handwriting Recognition (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855—868. CiteSeerX 10.1.1.139.4502. doi:10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. S2CID 14635907. (PDF) оригіналу за 2 січня 2014. Процитовано 30 липня 2014. (англ.)
- Ciresan, Dan; Meier, U.; Schmidhuber, J. (June 2012). Multi-column deep neural networks for image classification. с. 3642—3649. arXiv:1202.2745. Bibcode:2012arXiv1202.2745C. CiteSeerX 10.1.1.300.3283. doi:10.1109/cvpr.2012.6248110. ISBN . S2CID 2161592.
{{}}
: Проігноровано|journal=
() (англ.) - Zell, Andreas (2003). chapter 5.2. Simulation neuronaler Netze [Simulation of Neural Networks] (нім.) (вид. 1st). Addison-Wesley. ISBN . OCLC 249017987. (нім.)
- Artificial intelligence (вид. 3rd). Addison-Wesley Pub. Co. 1992. ISBN . (англ.)
- Abbod, Maysam F. (2007). Application of Artificial Intelligence to the Management of Urological Cancer. The Journal of Urology. 178 (4): 1150—1156. doi:10.1016/j.juro.2007.05.122. PMID 17698099. (англ.)
- Dawson, Christian W. (1998). An artificial neural network approach to rainfall-runoff modelling. Hydrological Sciences Journal. 43 (1): 47—66. doi:10.1080/02626669809492102. (англ.)
- . www.cse.unsw.edu.au. Архів оригіналу за 26 серпня 2018. Процитовано 4 листопада 2009. (англ.)
- Ciresan, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jurgen Schmidhuber (2011). Flexible, High Performance Convolutional Neural Networks for Image Classification (PDF). Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two. 2: 1237—1242. (PDF) оригіналу за 5 квітня 2022. Процитовано 7 липня 2022. (англ.)
- Zell, Andreas (1994). Simulation Neuronaler Netze [Simulation of Neural Networks] (нім.) (вид. 1st). Addison-Wesley. с. 73. ISBN .
- Miljanovic, Milos (February–March 2012). Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Prediction (PDF). Indian Journal of Computer and Engineering. 3 (1). (англ.)
- Lau, Suki (10 липня 2017). A Walkthrough of Convolutional Neural Network – Hyperparameter Tuning. Medium. оригіналу за 4 лютого 2023. Процитовано 23 серпня 2019. (англ.)
- Kelleher, John D.; Mac Namee, Brian; D'Arcy, Aoife (2020). 7-8. Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies (вид. 2nd). Cambridge, MA. ISBN . OCLC 1162184998. (англ.)
- Wei, Jiakai (26 квітня 2019). Forget the Learning Rate, Decay Loss. arXiv:1905.00094 [cs.LG]. (англ.)
- Li, Y.; Fu, Y.; Li, H.; Zhang, S. W. (1 червня 2009). The Improved Training Algorithm of Back Propagation Neural Network with Self-adaptive Learning Rate. Т. 1. с. 73—76. doi:10.1109/CINC.2009.111. ISBN . S2CID 10557754.
{{}}
: Проігноровано|journal=
() (англ.) - Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). Extreme learning machine: theory and applications. Neurocomputing. 70 (1): 489—501. CiteSeerX 10.1.1.217.3692. doi:10.1016/j.neucom.2005.12.126. S2CID 116858. (англ.)
- Widrow, Bernard та ін. (2013). The no-prop algorithm: A new learning algorithm for multilayer neural networks. Neural Networks. 37: 182—188. doi:10.1016/j.neunet.2012.09.020. PMID 23140797. (англ.)
- Ollivier, Yann; Charpiat, Guillaume (2015). Training recurrent networks without backtracking. arXiv:1507.07680 [cs.NE]. (англ.)
- Hinton, G. E. (2010). A Practical Guide to Training Restricted Boltzmann Machines. Tech. Rep. UTML TR 2010-003. оригіналу за 9 травня 2021. Процитовано 27 червня 2017. (англ.)
- ESANN. 2009.
- Bernard, Etienne (2021). Introduction to machine learning (англ.). Champaign. с. 9. ISBN . Процитовано 22 березня 2023.
- Синєглазов, Віктор; Чумаченко, Олена (2022). Бідюк, П. І.; Шугалей, Л. П. (ред.). Методи та технології напівкерованого навчання: Курс лекцій (PDF) (укр.). Київ: НТУУ «КПІ ім. Ігоря Сікорського».
- Дуда, О. М.; Кунанець, Н. Е.; Мацюк, О. В.; Пасічник, В. В. (21—27 травня 2018). Методи аналітичного опрацювання big data (PDF). Інтелектуальні системи прийняття рішень та проблеми обчислювального інтелекту (укр.). Залізний Порт. с. 159. ISBN .
- Кропивницька, В. Б.; Магас, Д. М. (30 квітня 2023). Напівкероване машинне навчання для виявлення несправностей нафтогазопроводів. Modern engineering and innovative technologies (укр.). 1 (18): 33—36. doi:10.30890/2567-5273.2023-26-01-010.
- Bernard, Etienne (2021). Introduction to machine learning (англ.). Champaign. с. 12. ISBN . Процитовано 22 березня 2023.
- В'юненко, О. Б.; Виганяйло, С. М. (12 травня 2021). Сокуренко, В. В.; Швець, Д. В.; Могілевський, Л. В.; Шульга, В. П.; Яковлєв, Р. П.; Шмельов, Ю. М. (ред.). Інновації та загальні проблеми підвищення рівня кібербезпеки (PDF). II Міжнародна науково-практична конференція «Авіація, промисловість, суспільство» (укр.). Т. 1. МВС України, Харківський національний університет внутрішніх справ, Кременчуцький льотний коледж. с. 169. ISBN .
- Bernard, Etienne (2021). Introduction to Machine Learning. Wolfram Media Inc. с. 9. ISBN . (англ.)
- Хорошилов, С. В.; Редька, М. О. (2019). Інтелектуальне керування орієнтацією космічних апаратів із використанням навчання з підкріпленням (PDF). Технічна механіка (укр.). Дніпро: Інститут технічної механіки Національної академії наук України та Державного космічного агентства України (4). doi:10.15407/itm2019.04.029.
- Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 квітня 2017). Metaheuristic design of feedforward neural networks: A review of two decades of research. Engineering Applications of Artificial Intelligence. 60: 97—116. arXiv:1705.05584. Bibcode:2017arXiv170505584O. doi:10.1016/j.engappai.2017.01.013. S2CID 27910748. (англ.)
- Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). Genetic reinforcement learning for neural networks. IJCNN-91-Seattle International Joint Conference on Neural Networks. IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, US: IEEE. с. 71—76. doi:10.1109/IJCNN.1991.155315. ISBN . (англ.)
- Hoskins, J.C.; Himmelblau, D.M. (1992). Process control via artificial neural networks and reinforcement learning. Computers & Chemical Engineering. 16 (4): 241—251. doi:10.1016/0098-1354(92)80045-B. (англ.)
- Bertsekas, D.P.; Tsitsiklis, J.N. (1996). Neuro-dynamic programming. Athena Scientific. с. 512. ISBN . оригіналу за 29 червня 2017. Процитовано 17 червня 2017. (англ.)
- Secomandi, Nicola (2000). Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands. Computers & Operations Research. 27 (11–12): 1201—1225. CiteSeerX 10.1.1.392.4034. doi:10.1016/S0305-0548(99)00146-X. (англ.)
- de Rigo, D.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). Neuro-dynamic programming for the efficient management of reservoir networks. Proceedings of MODSIM 2001, International Congress on Modelling and Simulation. MODSIM 2001, International Congress on Modelling and Simulation. Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand. doi:10.5281/zenodo.7481. ISBN . оригіналу за 7 August 2013. Процитовано 29 July 2013. (англ.)
- Damas, M.; Salmeron, M.; Diaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). Genetic algorithms and neuro-dynamic programming: application to water supply networks. Proceedings of 2000 Congress on Evolutionary Computation. 2000 Congress on Evolutionary Computation. Т. 1. La Jolla, California, US: IEEE. с. 7—14. doi:10.1109/CEC.2000.870269. ISBN . (англ.)
- Deng, Geng; Ferris, M.C. (2008). Neuro-dynamic programming for fractionated radiotherapy planning. Springer Optimization and Its Applications. Т. 12. с. 47—70. CiteSeerX 10.1.1.137.8288. doi:10.1007/978-0-387-73299-2_3. ISBN . (англ.)
- Bozinovski, S. (1982). "A self-learning system using secondary reinforcement". In R. Trappl (ed.) Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North Holland. pp. 397–402. . (англ.)
- Bozinovski, S. (2014) "Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981 [ 23 березня 2019 у Wayback Machine.]." Procedia Computer Science p. 255-263 (англ.)
- Bozinovski, Stevo; Bozinovska, Liljana (2001). Self-learning agents: A connectionist theory of emotion based on crossbar value judgment. Cybernetics and Systems. 32 (6): 637—667. doi:10.1080/01969720118145. S2CID 8944741. (англ.)
- Welcoming the Era of Deep Neuroevolution. Uber Blog. 18 грудня 2017. Процитовано 15 квітня 2023. (англ.)
- Artificial intelligence can 'evolve' to solve problems. Science | AAAS. 10 січня 2018. оригіналу за 9 грудня 2021. Процитовано 7 лютого 2018. (англ.)
- Turchetti, Claudio (2004), Stochastic Models of Neural Networks, Frontiers in artificial intelligence and applications: Knowledge-based intelligent engineering systems, т. 102, IOS Press, ISBN (англ.)
- Jospin, Laurent Valentin; Laga, Hamid; Boussaid, Farid; Buntine, Wray; Bennamoun, Mohammed (2022). Hands-On Bayesian Neural Networks—A Tutorial for Deep Learning Users. IEEE Computational Intelligence Magazine. 17 (2): 29—48. arXiv:2007.06823. doi:10.1109/mci.2022.3155327. ISSN 1556-603X. S2CID 220514248. оригіналу за 4 лютого 2023. Процитовано 19 листопада 2022. (англ.)
- de Rigo, D.; Castelletti, A.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E. (January 2005). A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management. У Pavel Zítek (ред.). Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine. 16th IFAC World Congress. Т. 16. Prague, Czech Republic: IFAC. с. 7—12. doi:10.3182/20050703-6-CZ-1902.02172. :11311/255236. ISBN . оригіналу за 26 квітня 2012. Процитовано 30 грудня 2011. (англ.)
- Ferreira, C. (2006). Designing Neural Networks Using Gene Expression Programming. У A. Abraham; B. de Baets; M. Köppen; B. Nickolay (ред.). Applied Soft Computing Technologies: The Challenge of Complexity (PDF). Springer-Verlag. с. 517—536. (PDF) оригіналу за 19 грудня 2013. Процитовано 8 жовтня 2012. (англ.)
- Da, Y.; Xiurun, G. (July 2005). . У T. Villmann (ред.). New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks. Т. 63. Elsevier. с. 527—533. doi:10.1016/j.neucom.2004.07.002. Архів оригіналу за 25 квітня 2012. Процитовано 30 грудня 2011. (англ.)
- Wu, J.; Chen, E. (May 2009). . У Wang, H.; Shen, Y.; Huang, T.; Zeng, Z. (ред.). 6th International Symposium on Neural Networks, ISNN 2009. Lecture Notes in Computer Science. Т. 5553. Springer. с. 49—58. doi:10.1007/978-3-642-01513-7_6. ISBN . Архів оригіналу за 31 грудня 2014. Процитовано 1 січня 2012. (англ.)
- Ting Qin; Zonghai Chen; Haitao Zhang; Sifu Li; Wei Xiang; Ming Li (2004). A learning algorithm of CMAC based on RLS (PDF). Neural Processing Letters. 19 (1): 49—61. doi:10.1023/B:NEPL.0000016847.18175.60. S2CID 6233899. (PDF) оригіналу за 14 квітня 2021. Процитовано 30 січня 2019. (англ.)
- Ting Qin; Haitao Zhang; Zonghai Chen; Wei Xiang (2005). Continuous CMAC-QRLS and its systolic array (PDF). Neural Processing Letters. 22 (1): 1—16. doi:10.1007/s11063-004-2694-0. S2CID 16095286. (PDF) оригіналу за 18 листопада 2018. Процитовано 30 січня 2019. (англ.)
- LeCun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W, Jackel LD (1989). Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation. 1 (4): 541—551. doi:10.1162/neco.1989.1.4.541. S2CID 41312633. (англ.)
- Yann LeCun (2016). Slides on Deep Learning Online [ 23 квітня 2016 у Wayback Machine.] (англ.)
- ; Schmidhuber, Jürgen (1 листопада 1997). Long Short-Term Memory. Neural Computation. 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014. (англ.)
- Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). (PDF). Архів оригіналу (PDF) за 24 квітня 2018. (англ.)
- Li, Xiangang; Wu, Xihong (15 жовтня 2014). Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition. arXiv:1410.4281 [cs.CL]. (англ.)
- Fan, Y.; Qian, Y.; Xie, F.; Soong, F. K. (2014). TTS synthesis with bidirectional LSTM based Recurrent Neural Networks. Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech: 1964—1968. Процитовано 13 червня 2017. (англ.)
- Zen, Heiga; Sak, Hasim (2015). Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis (PDF). Google.com. ICASSP. с. 4470—4474. (PDF) оригіналу за 9 травня 2021. Процитовано 27 червня 2017. (англ.)
- Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015). Photo-Real Talking Head with Deep Bidirectional LSTM (PDF). Proceedings of ICASSP. (PDF) оригіналу за 1 листопада 2017. Процитовано 27 червня 2017. (англ.)
- ; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; ; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; (5 грудня 2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. arXiv:1712.01815 [cs.AI]. (англ.)
- Zoph, Barret; Le, Quoc V. (4 листопада 2016). Neural Architecture Search with Reinforcement Learning. arXiv:1611.01578 [cs.LG]. (англ.)
- Haifeng Jin; Qingquan Song; Xia Hu (2019). Auto-keras: An efficient neural architecture search system. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM. arXiv:1806.10282. оригіналу за 21 серпня 2019. Процитовано 21 серпня 2019 — через autokeras.com. (англ.)
- Claesen, Marc; De Moor, Bart (2015). Hyperparameter Search in Machine Learning. arXiv:1502.02127 [cs.LG]. Bibcode: 2015arXiv150202127C (англ.)
- Probst, Philipp; Boulesteix, Anne‐Laure; Bischl, Bernd (26 лютого 2018). Tunability: Importance of Hyperparameters of Machine Learning Algorithms. J. Mach. Learn. Res. 20: 53:1–53:32. S2CID 88515435. Процитовано 18 березня 2023. (англ.)
- Zou, Jinming; Han, Yi; So, Sung-Sau (2009). Artificial Neural Networks: Methods and Applications. Methods in Molecular Biology. Т. 458 (вид. Livingstone, David J.). Totowa, NJ: Humana Press. с. 15—23. doi:10.1007/978-1-60327-101-1_2. ISBN . PMID 19065803. Процитовано 18 березня 2023. (англ.)
- Esch, Robin (1990). Handbook of Applied Mathematics: Selected Results and Methods (вид. Springer US). Boston, MA: Springer US. с. 928—987. doi:10.1007/978-1-4684-1423-3_17. ISBN . Процитовано 18 березня 2023. (англ.)
- Sarstedt, Marko; Moo, Erik (2019). Regression Analysis. A Concise Guide to Market Research. Springer Texts in Business and Economics. Springer Berlin Heidelberg. с. 209—256. doi:10.1007/978-3-662-56707-4_7. ISBN . S2CID 240396965. (англ.)
- Tian, Jie; Tan, Yin; Sun, Chaoli; Zeng, Jianchao; Jin, Yaochu (December 2016). A self-adaptive similarity-based fitness approximation for evolutionary optimization. 2016 IEEE Symposium Series on Computational Intelligence (SSCI): 1—8. doi:10.1109/SSCI.2016.7850209. ISBN . S2CID 14948018. (англ.)
- Turek, Fred D. (March 2007). Introduction to Neural Net Machine Vision. Vision Systems Design. 12 (3). оригіналу за 16 травня 2013. Процитовано 5 березня 2013. (англ.)
- Alaloul, Wesam Salah; Qureshi, Abdul Hannan (2019). Data Processing Using Artificial Neural Networks. Dynamic Data Assimilation - Beating the Uncertainties. doi:10.5772/intechopen.91935. ISBN . S2CID 219735060. (англ.)
- Pal, Madhab; Roy, Rajib; Basu, Joyanta; Bepari, Milton S. (2013). Blind source separation: A review and analysis. 2013 International Conference Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE). IEEE. с. 1—5. doi:10.1109/ICSDA.2013.6709849. ISBN . S2CID 37566823. (англ.)
- Zissis, Dimitrios (October 2015). A cloud based architecture capable of perceiving and predicting multiple vessel behaviour. Applied Soft Computing. 35: 652—661. doi:10.1016/j.asoc.2015.07.002. оригіналу за 26 липня 2020. Процитовано 18 липня 2019. (англ.)
- Roman M. Balabin; Ekaterina I. Lomakina (2009). Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies. J. Chem. Phys. 131 (7): 074104. Bibcode:2009JChPh.131g4104B. doi:10.1063/1.3206326. PMID 19708729. (англ.)
- Silver, David та ін. (2016). Mastering the game of Go with deep neural networks and tree search (PDF). Nature. 529 (7587): 484—489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. PMID 26819042. S2CID 515925. (PDF) оригіналу за 23 листопада 2018. Процитовано 31 січня 2019. (англ.)
- Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (August 2016). Lung sound classification using cepstral-based statistical features. Computers in Biology and Medicine. 75 (1): 118—129. doi:10.1016/j.compbiomed.2016.05.013. PMID 27286184. (англ.)
- Choy, Christopher B., et al. "3d-r2n2: A unified approach for single and multi-view 3d object reconstruction [ 26 липня 2020 у Wayback Machine.]." European conference on computer vision. Springer, Cham, 2016. (англ.)
- Gessler, Josef (August 2021). Sensor for food analysis applying impedance spectroscopy and artificial neural networks. RiuNet UPV (1): 8—12. оригіналу за 21 жовтня 2021. Процитовано 21 жовтня 2021. (англ.)
- Maitra, D. S.; Bhattacharya, U.; Parui, S. K. (August 2015). CNN based common approach to handwritten character recognition of multiple scripts. 2015 13th International Conference on Document Analysis and Recognition (ICDAR): 1021—1025. doi:10.1109/ICDAR.2015.7333916. ISBN . S2CID 25739012. (англ.)
- French, Jordan (2016). The time traveller's CAPM. Investment Analysts Journal. 46 (2): 81—96. doi:10.1080/10293523.2016.1255469. S2CID 157962452. (англ.)
- Schechner, Sam (15 червня 2017). Facebook Boosts A.I. to Block Terrorist Propaganda. The Wall Street Journal. ISSN 0099-9660. Процитовано 16 червня 2017. (англ.)
- Ganesan, N (2010). Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data. International Journal of Computer Applications. 1 (26): 81—97. Bibcode:2010IJCA....1z..81G. doi:10.5120/476-783. (англ.)
- Bottaci, Leonardo (1997). (PDF). Lancet. The Lancet. 350 (9076): 469—72. doi:10.1016/S0140-6736(96)11196-X. PMID 9274582. S2CID 18182063. Архів оригіналу (PDF) за 23 листопада 2018. Процитовано 2 травня 2012. (англ.)
- Alizadeh, Elaheh; Lyons, Samanthe M; Castle, Jordan M; Prasad, Ashok (2016). Measuring systematic changes in invasive cancer cell shape using Zernike moments. Integrative Biology. 8 (11): 1183—1193. doi:10.1039/C6IB00100A. PMID 27735002. (англ.)
- Lyons, Samanthe (2016). Changes in cell shape are correlated with metastatic potential in murine. Biology Open. 5 (3): 289—299. doi:10.1242/bio.013409. PMC 4810736. PMID 26873952. (англ.)
- Nabian, Mohammad Amin; Meidani, Hadi (28 серпня 2017). Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks. Computer-Aided Civil and Infrastructure Engineering. 33 (6): 443—458. arXiv:1708.08551. Bibcode:2017arXiv170808551N. doi:10.1111/mice.12359. S2CID 36661983. (англ.)
- Nabian, Mohammad Amin; Meidani, Hadi (2018). Accelerating Stochastic Assessment of Post-Earthquake Transportation Network Connectivity via Machine-Learning-Based Surrogates. Transportation Research Board 97th Annual Meeting. оригіналу за 9 березня 2018. Процитовано 14 березня 2018. (англ.)
- Díaz, E.; Brotons, V.; Tomás, R. (September 2018). Use of artificial neural networks to predict 3-D elastic settlement of foundations on soils with inclined bedrock. Soils and Foundations. 58 (6): 1414—1422. Bibcode:2018SoFou..58.1414D. doi:10.1016/j.sandf.2018.08.001. :10045/81208. ISSN 0038-0806. (англ.)
- Tayebiyan, A.; Mohammad, T. A.; Ghazali, A. H.; Mashohor, S. Artificial Neural Network for Modelling Rainfall-Runoff. Pertanika Journal of Science & Technology. 24 (2): 319—330. (англ.)
- Govindaraju, Rao S. (1 квітня 2000). Artificial Neural Networks in Hydrology. I: Preliminary Concepts. Journal of Hydrologic Engineering. 5 (2): 115—123. doi:10.1061/(ASCE)1084-0699(2000)5:2(115). (англ.)
- Govindaraju, Rao S. (1 квітня 2000). Artificial Neural Networks in Hydrology. II: Hydrologic Applications. Journal of Hydrologic Engineering. 5 (2): 124—137. doi:10.1061/(ASCE)1084-0699(2000)5:2(124). (англ.)
- Peres, D. J.; Iuppa, C.; Cavallaro, L.; Cancelliere, A.; Foti, E. (1 жовтня 2015). Significant wave height record extension by neural networks and reanalysis wind data. Ocean Modelling. 94: 128—140. Bibcode:2015OcMod..94..128P. doi:10.1016/j.ocemod.2015.08.002. (англ.)
- Dwarakish, G. S.; Rakshith, Shetty; Natesan, Usha (2013). Review on Applications of Neural Network in Coastal Engineering. Artificial Intelligent Systems and Machine Learning. 5 (7): 324—331. оригіналу за 15 серпня 2017. Процитовано 5 липня 2017. (англ.)
- Ermini, Leonardo; Catani, Filippo; Casagli, Nicola (1 березня 2005). Artificial Neural Networks applied to landslide susceptibility assessment. Geomorphology. Geomorphological hazard and human impact in mountain environments. 66 (1): 327—343. Bibcode:2005Geomo..66..327E. doi:10.1016/j.geomorph.2004.09.025. (англ.)
- Nix, R.; Zhang, J. (May 2017). Classification of Android apps and malware using deep neural networks. 2017 International Joint Conference on Neural Networks (IJCNN): 1871—1878. doi:10.1109/IJCNN.2017.7966078. ISBN . S2CID 8838479. (англ.)
- . The systems and networking group at UCSD. Архів оригіналу за 14 липня 2019. Процитовано 15 лютого 2019. (англ.)
- Homayoun, Sajad; Ahmadzadeh, Marzieh; Hashemi, Sattar; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali; Conti, Mauro; Dargahi, Tooska (ред.), BoTShark: A Deep Learning Approach for Botnet Traffic Detection, Cyber Threat Intelligence, Advances in Information Security, Springer International Publishing, с. 137—153, doi:10.1007/978-3-319-73951-9_7, ISBN (англ.)
- Ghosh та Reilly (January 1994). Credit card fraud detection with a neural-network. 1994 Proceedings of the Twenty-Seventh Hawaii International Conference on System Sciences. 3: 621—630. doi:10.1109/HICSS.1994.323314. ISBN . S2CID 13260377. (англ.)
- Ananthaswamy, Anil (19 квітня 2021). Latest Neural Nets Solve World's Hardest Equations Faster Than Ever Before. Quanta Magazine. Процитовано 12 травня 2021. (англ.)
- AI has cracked a key mathematical puzzle for understanding our world. MIT Technology Review. Процитовано 19 листопада 2020. (англ.)
- Caltech Open-Sources AI for Solving Partial Differential Equations. InfoQ. оригіналу за 25 січня 2021. Процитовано 20 січня 2021. (англ.)
- Nagy, Alexandra (28 червня 2019). Variational Quantum Monte Carlo Method with a Neural-Network Ansatz for Open Quantum Systems. Physical Review Letters. 122 (25): 250501. arXiv:1902.09483. Bibcode:2019PhRvL.122y0501N. doi:10.1103/PhysRevLett.122.250501. PMID 31347886. S2CID 119074378. (англ.)
- Yoshioka, Nobuyuki; Hamazaki, Ryusuke (28 червня 2019). Constructing neural stationary states for open quantum many-body systems. Physical Review B. 99 (21): 214306. arXiv:1902.07006. Bibcode:2019PhRvB..99u4306Y. doi:10.1103/PhysRevB.99.214306. S2CID 119470636. (англ.)
- Hartmann, Michael J.; Carleo, Giuseppe (28 червня 2019). Neural-Network Approach to Dissipative Quantum Many-Body Dynamics. Physical Review Letters. 122 (25): 250502. arXiv:1902.05131. Bibcode:2019PhRvL.122y0502H. doi:10.1103/PhysRevLett.122.250502. PMID 31347862. S2CID 119357494. (англ.)
- Vicentini, Filippo; Biella, Alberto; Regnault, Nicolas; Ciuti, Cristiano (28 червня 2019). Variational Neural-Network Ansatz for Steady States in Open Quantum Systems. Physical Review Letters. 122 (25): 250503. arXiv:1902.10104. Bibcode:2019PhRvL.122y0503V. doi:10.1103/PhysRevLett.122.250503. PMID 31347877. S2CID 119504484. (англ.)
- Forrest MD (April 2015). Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster. BMC Neuroscience. 16 (27): 27. doi:10.1186/s12868-015-0162-6. PMC 4417229. PMID 25928094.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () (англ.) - Siegelmann, H.T.; Sontag, E.D. (1991). Turing computability with neural nets (PDF). Appl. Math. Lett. 4 (6): 77—80. doi:10.1016/0893-9659(91)90080-F. (англ.)
- Bains, Sunny (3 листопада 1998). Analog computer trumps Turing model. EE Times. Процитовано 11 травня 2023. (англ.)
- Balcázar, José (July 1997). Computational Power of Neural Networks: A Kolmogorov Complexity Characterization. IEEE Transactions on Information Theory. 43 (4): 1175—1183. CiteSeerX 10.1.1.411.7782. doi:10.1109/18.605580. (англ.)
- Надригайло, Т.Ж.; Молчанова, К.А. (2011). Аналіз нейронних алгоритмів (PDF). Мат. мод. 2 (25): 5—6 (50—51).
- Демчук, О.С. (2019). Робоча програма навчальної дисципліни «Нейронні мережі та нейро-нечіткі технології» (PDF). Рівне: НУВГП. Процитовано 4 червня 2023.
- (2003). Information Theory, Inference, and Learning Algorithms (PDF). Cambridge University Press. ISBN . (PDF) оригіналу за 19 October 2016. Процитовано 11 June 2016. (англ.)
- Cover, Thomas (1965). Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition (PDF). IEEE Transactions on Electronic Computers. IEEE. EC-14 (3): 326—334. doi:10.1109/PGEC.1965.264137. (PDF) оригіналу за 5 березня 2016. Процитовано 10 березня 2020. (англ.)
- (2019). Reproducibility and Experimental Design for Machine Learning on Audio and Multimedia Data. MM '19: Proceedings of the 27th ACM International Conference on Multimedia. ACM: 2709—2710. doi:10.1145/3343031.3350545. ISBN . S2CID 204837170. (англ.)
- . The Tensorflow Meter. Архів оригіналу за 18 April 2022. Процитовано 10 March 2020. (англ.)
- Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S.; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2020). Wide neural networks of any depth evolve as linear models under gradient descent. Journal of Statistical Mechanics: Theory and Experiment. 2020 (12): 124002. arXiv:1902.06720. Bibcode:2020JSMTE2020l4002L. doi:10.1088/1742-5468/abc62b. S2CID 62841516. (англ.)
- Arthur Jacot; Franck Gabriel; Clement Hongler (2018). Neural Tangent Kernel: Convergence and Generalization in Neural Networks (PDF). 32nd Conference on Neural Information Processing Systems (NeurIPS 2018), Montreal, Canada. (PDF) оригіналу за 22 червня 2022. Процитовано 4 червня 2022. (англ.)
- Xu ZJ, Zhang Y, Xiao Y (2019). Training Behavior of Deep Neural Network in Frequency Domain. У Gedeon T, Wong K, Lee M (ред.). Neural Information Processing. ICONIP 2019. Lecture Notes in Computer Science. Т. 11953. Springer, Cham. с. 264—274. arXiv:1807.01251. doi:10.1007/978-3-030-36708-4_22. ISBN . S2CID 49562099. (англ.)
- Nasim Rahaman; Aristide Baratin; Devansh Arpit; Felix Draxler; Min Lin; Fred Hamprecht; Yoshua Bengio; Aaron Courville (2019). On the Spectral Bias of Neural Networks (PDF). Proceedings of the 36th International Conference on Machine Learning. 97: 5301—5310. arXiv:1806.08734. (PDF) оригіналу за 22 жовтня 2022. Процитовано 4 червня 2022. (англ.)
- Zhi-Qin John Xu; Yaoyu Zhang; Tao Luo; Yanyang Xiao; Zheng Ma (2020). Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks. Communications in Computational Physics. 28 (5): 1746—1767. arXiv:1901.06523. Bibcode:2020CCoPh..28.1746X.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Shtu chni nejro nni mere zhi ShNM angl artificial neural network yaki zazvichaj prosto nazivayut nejronnimi merezhami NM angl neural networks NN abo nejromerezhami angl neural nets ce obchislyuvalni sistemi nathneni biologichnimi nejronnimi merezhami yaki skladayut mozok tvarin Shtuchna nejronna merezha ce vzayemopov yazana grupa vuzliv nathnena sproshennyam nejroniv mozku Tut kozhna krugla vershina podaye shtuchnij nejron a strilka podaye z yednannya vihodu odnogo shtuchnogo nejrona z vhodom inshogo ShNM gruntuyetsya na sukupnosti z yednanih vuzliv angl units nodes yaki nazivayut shtuchnimi nejronami yaki priblizno modelyuyut nejroni biologichnogo mozku Kozhne z yednannya yak i sinapsi v biologichnomu mozku mozhe peredavati signal do inshih nejroniv Shtuchnij nejron otrimuye signali potim obroblyaye yih i mozhe signalizuvati nejronam z yakimi jogo z yednano Signal u z yednanni ce dijsne chislo a vihid kozhnogo nejrona obchislyuyetsya deyakoyu nelinijnoyu funkciyeyu sumi jogo vhodiv Z yednannya nazivayut rebrami angl edges Nejroni ta rebra zazvichaj mayut en angl weight yaka pidlashtovuyetsya v procesi navchannya Vaga zbilshuye abo zmenshuye silu signalu na z yednanni Nejroni mozhut mati takij porig sho signal nadsilayetsya lishe todi koli sukupnij signal perevishuye cej porig Yak pravilo nejroni zibrano v shari angl layers Rizni shari mozhut vikonuvati rizni peretvorennya danih svogo vhodu Signali prohodyat vid pershogo sharu sharu vhodu do ostannogo sharu vihodu mozhlivo pislya prohodzhennya sharami dekilka raziv TrenuvannyaNejronni merezhi navchayutsya abo yih trenuyut shlyahom obrobki prikladiv kozhen z yakih mistit vidomij vhid ta rezultat utvoryuyuchi jmovirnisno zvazheni asociaciyi mizh nimi yaki zberigayutsya v strukturi danih samoyi merezhi Trenuvannya nejronnoyi merezhi zadanim prikladom zazvichaj zdijsnyuyut shlyahom viznachennya riznici mizh obroblenim vihodom merezhi chasto peredbachennyam i cilovim vihodom Cya riznicya ye pohibkoyu Potim merezha pidlashtovuye svoyi zvazheni asociaciyi vidpovidno do pravila navchannya i z vikoristannyam cogo znachennya pohibki Poslidovni pidlashtovuvannya prizvedut do viroblyannya nejronnoyu merezheyu rezultativ use bilshe shozhih na cilovi Pislya dostatnoyi kilkosti cih pidlashtovuvan trenuvannya mozhlivo pripiniti na osnovi pevnogo kriteriyu Ce forma kerovanogo navchannya Taki sistemi navchayutsya vikonuvati zavdannya rozglyadayuchi prikladi yak pravilo bez programuvannya pravil dlya konkretnih zavdan Napriklad u rozpiznavanni zobrazhen voni mozhut navchitisya vstanovlyuvati zobrazhennya na yakih zobrazheni koti analizuyuchi prikladi zobrazhen en vruchnu yak kit ta ne kit i vikoristovuyuchi rezultati dlya identifikuvannya kotiv na inshih zobrazhennyah Voni roblyat ce bez bud yakogo apriornogo znannya pro kotiv napriklad sho voni mayut hutro hvosti vusa ta kotopodibni piski Natomist voni avtomatichno porodzhuyut identifikacijni harakteristiki z prikladiv yaki obroblyuyut IstoriyaDokladnishe en Najprostishij tip nejronnoyi merezhi pryamogo poshirennya NMPP angl feedforward neural network FNN ce linijna merezha yaka skladayetsya z yedinogo sharu vuzliv vihodu vhodi podayutsya bezposeredno na vihodi cherez nizku vag V kozhnomu vuzli obchislyuyetsya suma dobutkiv vag ta danih vhodiv Serednokvadratichni pohibki mizh cimi obchislenimi vihodami ta zadanimi cilovimi znachennyami minimizuyut shlyahom pidlashtovuvannya vag Cej metod vidomij ponad dva stolittya yak metod najmenshih kvadrativ abo linijna regresiya Lezhandr 1805 ta Gauss 1795 vikoristovuvali jogo yak zasib dlya znahodzhennya dobrogo grubogo linijnogo dopasuvannya do naboru tochok dlya peredbachuvannya ruhu planet en ta en stvorili ta proanalizuvali model Izinga 1925 yaka po suti ye shtuchnoyu rekurentnoyu nejronnoyu merezheyu RNM angl recurrent neural network RNN bez navchannya sho skladayetsya z nejronopodibnih porogovih elementiv 1972 roku en zrobiv cyu arhitekturu adaptivnoyu Jogo navchannya RNM populyarizuvav Dzhon Gopfild 1982 roku Vorren Makkaloh ta en 1943 takozh rozglyadali nenavchanu obchislyuvalnu model dlya nejronnih merezh Naprikinci 1940 h rokiv D O Gebb stvoriv gipotezu navchannya zasnovanu na mehanizmi nejroplastichnosti sho stala vidomoyu yak gebbove navchannya angl Hebbian learning Farli ta en 1954 vpershe vikoristali obchislyuvalni mashini zvani todi kalkulyatorami dlya modelyuvannya gebbovoyi merezhi 1958 roku psiholog Frenk Rozenblat vinajshov perceptron angl perceptron pershu vtilenu shtuchnu nejronnu merezhu finansovanu en SShA Dehto kazhe sho doslidzhennya zaznali zastoyu pislya togo yak Minski ta Pejpert 1969 viyavili sho bazovi perceptroni ne zdatni obroblyati shemu viklyuchnogo abo i sho komp yuteram brakuye dostatnoyi potuzhnosti dlya obrobki pridatnih nejronnih merezh Prote na moment vihodu ciyeyi knigi vzhe buli vidomi metodi trenuvannya bagatosharovih perceptroniv BShP angl multilayer perceptron MLP Pershij BShP glibokogo navchannya opublikuvali Oleksij Grigorovich Ivahnenko ta Valentin Lapa 1965 roku pid nazvoyu metod grupovogo urahuvannya argumentiv angl Group Method of Data Handling Pershij BShP glibokogo navchannya navchenij stohastichnim gradiyentnim spuskom opublikuvav 1967 roku en U komp yuternih eksperimentah provedenih uchnem Amari Sajto p yatisharovij BShP iz dvoma zminyuvanimi sharami navchivsya korisnih vnutrishnih podan dlya klasifikuvannya nelinijno rozdilnih klasiv obraziv Samoorganizacijni karti angl self organizing maps SOM opisav Teuvo Kohonen 1982 roku Samoorganizacijni karti ce nejrofiziologichno nathneni nejronni merezhi yaki navchayutsya nizkovimirnogo podannya visokovimirnih danih zberigayuchi pri comu topologichnu strukturu cih danih Voni trenuyutsya za dopomogoyu konkurentnogo navchannya Arhitekturu zgortkovoyi nejronnoyi merezhi ZNM angl convolutional neural network CNN zi zgortkovimi sharami ta sharami ponizhennya diskretizaciyi zaproponuvav en 1980 roku Vin nazvav yiyi neokognitronom angl neocognitron 1969 roku vin takozh zaproponuvav peredavalnu funkciyu ReLU angl rectified linear unit vipryamlenij linijnij vuzol Cej vipryamlyach stav najpopulyarnishoyu peredavalnoyu funkciyeyu dlya ZNM ta glibokih nejronnih merezh zagalom ZNM stali vazhlivim instrumentom komp yuternogo bachennya Algoritm zvorotnogo poshirennya angl backpropagation ce efektivne zastosuvannya lancyugovogo pravila Lejbnica 1673 do merezh diferencijovnih vuzliv Vin takozh vidomij yak zvorotnij rezhim avtomatichnogo diferenciyuvannya abo en zavdyaki en 1970 Termin pohibki zvorotnogo poshirennya angl back propagating errors zaprovadiv 1962 roku Frenk Rozenblat ale vin ne mav vtilennya ciyeyi proceduri hocha en ta en mali bezperervni poperedniki zvorotnogo poshirennya na osnovi dinamichnogo programuvannya vzhe v 1960 61 rokah u konteksti teoriyi keruvannya 1973 roku Drejfus vikoristav zvorotne poshirennya dlya pristosovuvannya parametriv kontroleriv proporcijno gradiyentam pohibok 1982 roku en zastosuvav zvorotne poshirennya do BShP u sposib yakij stav standartnim 1986 roku en Ginton ta en pokazali sho zvorotne poshirennya navchayetsya cikavih vnutrishnih podan sliv yak vektoriv oznak koli trenuyetsya peredbachuvati nastupne slovo v poslidovnosti Nejronna merezha z chasovoyu zatrimkoyu angl time delay neural network TDNN en 1987 poyednala zgortki spilni vagi ta zvorotne poshirennya 1988 roku Vej Chzhan zi spivavt zastosovuvali zvorotne poshirennya do ZNM sproshenogo neokognitrona zi zgortkovimi vzayemozv yazkami mizh sharami oznak zobrazhennya ta ostannim povnozv yaznim sharom dlya abetkovogo rozpiznavannya 1989 roku Yan Lekun zi spivavt navchili ZNM rozpiznavati rukopisni poshtovi indeksi na poshti 1992 roku Dzhuan Veng zi spivavt zaproponuvali maksimizuvalne agreguvannya angl max pooling dlya ZNM shobi dopomogti z invariantnistyu shodo najmenshogo zsuvu ta tolerantnistyu do deformuvannya dlya spriyannya en LeNet 5 1998 7 rivnevu ZNM vid Yana Lekuna zi spivavt yaka klasifikuye cifri bulo zastosovano kilkoma bankami dlya rozpiznavannya rukopisnih chisel na chekah ocifrovanih u zobrazhennya 32 32 pikseliv Pochinayuchi z 1988 roku vikoristannya nejronnih merezh peretvorilo galuz peredbachuvannya struktur bilkiv zokrema koli pershi kaskadni merezhi trenuvalisya na profilyah matricyah stvorenih chislennimi virivnyuvannyami poslidovnostej U 1980 h rokah zvorotne poshirennya ne pracyuvalo dobre dlya glibokih NMPP ta RNM Shobi podolati cyu problemu Yurgen Shmidhuber 1992 zaproponuvav iyerarhiyu RNM poperedno trenovanih po odnomu rivnyu samokerovanim navchannyam Vona vikoristovuye en dlya navchannya vnutrishnih podan u kilkoh samoorganizovanih masshtabah chasu Ce mozhe istotno polegshuvati podalshe gliboke navchannya Cyu iyerarhiyu RNM mozhlivo zgornuti angl collapse v yedinu RNM shlyahom en fragmentuvalnoyi angl chunker merezhi vishogo rivnya v avtomatizuvalnu angl automatizer merezhu nizhchogo rivnya 1993 roku fragmentuvalnik rozv yazav zavdannya glibokogo navchannya glibina yakogo perevishuvala 1000 1992 roku Yurgen Shmidhuber takozh opublikuvav alternativu RNM angl alternative to RNNs yaku zaraz nazivayut linijnim transformerom angl linear Transformer abo transformerom z linearizovanoyu samouvagoyu za vinyatkom operatora normuvannya Vin navchayetsya vnutrishnih centriv uvagi angl internal spotlights of attention povilna nejronna merezha pryamogo poshirennya vchitsya za dopomogoyu gradiyentnogo spusku keruvati shvidkimi vagami inshoyi nejronnoyi merezhi cherez tenzorni dobutki samoporodzhuvanih shabloniv zbudzhennya FROM i TO zvanih teper klyuchem angl key ta znachennyam angl value samouvagi Ce vidobrazhennya uvagi angl attention mapping shvidkih vag zastosovuyut do shablonu zapitu Suchasnij transformer angl Transformer zaproponuvali Ashish Vasvani zi spivavt u svoyij praci 2017 roku Uvaga ce vse sho vam treba Vin poyednuye ce z operatorom softmax ta proyekcijnoyu matriceyu Transformeri vse chastishe obirayut za model dlya obrobki prirodnoyi movi Bagato suchasnih velikih movnih modelej takih yak ChatGPT GPT 4 ta BERT vikoristovuyut same jogo Transformeri takozh vse chastishe vikoristovuyut u komp yuternim bachenni 1991 roku Yurgen Shmidhuber takozh opublikuvav zmagalni nejronni merezhi angl adversarial neural networks yaki zmagayutsya mizh soboyu u formi antagonistichnoyi gri de vigrash odniyeyi merezhi ye prograshem inshoyi Persha merezha ye porodzhuvalnoyu modellyu yaka modelyuye rozpodil imovirnosti nad obrazami na vihodi Druga merezha navchayetsya gradiyentnim spuskom peredbachuvati reakciyu seredovisha na ci obrazi Ce bulo nazvano shtuchnoyu cikavistyu angl artificial curiosity 2014 roku Yan Gudfelou zi spivavt vikoristali cej princip u porodzhuvalnij zmagalnij merezhi angl generative adversarial network GAN Tut reakciya navkolishnogo seredovisha dorivnyuye 1 abo 0 zalezhno vid togo chi nalezhit vihid pershoyi merezhi do zadanogo naboru Ce mozhlivo vikoristovuvati dlya stvorennya realistichnih dipfejkiv Vidminnoyi yakosti zobrazhennya dosyagla en Nvidia 2018 na osnovi progresivnoyi porodzhuvalnoyi zmagalnoyi merezhi angl Progressive GAN Tero Karrasa Timo Ajli Samuli Lajne ta Yaakko Lehtinena Tut porodzhuvach viroshuyetsya vid malogo do velikogo piramidnim chinom Diplomnu pracyu en 1991 jogo kerivnik Yurgen Shmidhuber nazvav odnim iz najvazhlivishih dokumentiv v istoriyi mashinnogo navchannya Hohrajter viznachiv i proanalizuvav problemu znikannya gradiyentu j zaproponuvav dlya yiyi rozv yazannya rekurentni zalishkovi z yednannya Ce prizvelo do poyavi metodu glibokogo navchannya zvanogo dovgoyu korotkochasnoyu pam yattyu DKChP angl long short term memory LSTM opublikovanogo v Neural Computation 1997 Rekurentni nejronni merezhi DKChP mozhut navchatisya zadach duzhe glibokogo navchannya angl very deep learning z dovgimi shlyahami rozpodilu vnesku yaki vimagayut spogadiv pro podiyi sho vidbulisya za tisyachi diskretnih chasovih krokiv do cogo Standartnu DKChP angl vanilla LSTM iz zabuvalnim ventilem zaproponuvali 1999 roku en Shmidhuber ta Fred Kammins DKChP stala najcitovanishoyu nejronnoyu merezheyu XX stolittya 2015 roku Rupesh Kumar Shrivastava Klaus Greff i Shmidhuber vikoristali princip DKChP dlya stvorennya magistralevoyi merezhi angl Highway network nejronnoyi merezhi pryamogo poshirennya z sotnyami shariv nabagato glibshoyi za poperedni 7 misyaciv potomu Kajmin He Syan yu Chzhan Shaocin Ren ta Czyan Sun vigrali en 2015 roku z vidkritoventilnim abo bezventilnim variantom magistralevoyi merezhi nazvanim zalishkovoyu nejronnoyu merezheyu angl Residual neural network Vona stala najcitovanishoyu nejronnoyu merezheyu XXI stolittya Rozvitok metal oksid napivprovidnikovih MON shem nadvisokogo rivnya integraciyi NVIS u formi tehnologiyi komplementarnih MON KMON dozvoliv zbilshiti en MON tranzistoriv u cifrovij elektronici Ce zabezpechilo bilshu potuzhnist obrobki dlya rozrobki praktichnih shtuchnih nejronnih merezh u 1980 h rokah Do rannih uspihiv nejronnih merezh nalezhali prognozuvannya fondovogo rinku a 1995 roku perevazhno bezpilotnij avtomobil Dzhefri Ginton zi spivavt 2006 zaproponuvali navchannya visokorivnevih podan z vikoristannyam poslidovnih shariv dvijkovih abo dijsnoznachnih latentnih zminnih z obmezhenoyu mashinoyu Bolcmana dlya modelyuvannya kozhnogo sharu 2012 roku In ta Din stvorili merezhu yaka navchilasya rozpiznavati ponyattya vishogo rivnya taki yak koti lishe pereglyadayuchi nemicheni zobrazhennya Poperednye nekerovane trenuvannya ta zbilshennya obchislyuvalnoyi potuzhnosti GP ta rozpodilenih obchislen dozvolili vikoristovuvati bilshi merezhi zokrema v zadachah rozpiznavannya zobrazhen i bachennya yaki stali vidomi yak gliboke navchannya Chireshan iz kolegami 2010 pokazali sho nezvazhayuchi na problemu znikannya gradiyenta GP roblyat zvorotne poshirennya pridatnim dlya bagatosharovih nejronnih merezh pryamogo poshirennya U period mizh 2009 ta 2012 rokami ShNM pochali vigravati nagorodi v konkursah iz rozpiznavannya zobrazhen nablizhayuchis do lyudskogo rivnya vikonannya riznih zavdan spochatku v rozpiznavanni obraziv ta rozpiznavanni rukopisnogo tekstu Napriklad dvospryamovana ta bagatovimirna dovga korotkochasna pam yat DKChP en zi spivavt vigrala tri zmagannya z rozpiznavannya zv yazanogo rukopisnogo tekstu 2009 roku bez bud yakih poperednih znan pro tri movi yakih potribno bulo navchitisya Chireshan iz kolegami stvorili pershi rozpiznavachi obraziv yaki dosyagli lyudskoyi nadlyudskoyi produktivnosti na takih perevirkah yak rozpiznavannya dorozhnih znakiv IJCNN 2012 ModeliCej rozdil mozhe buti en dlya chitachiv Bud laska dopomozhit en Mozhlivo storinka obgovorennya mistit zauvazhennya shodo potribnih zmin sichen 2018 Dokladnishe Matematika shtuchnih nejronnih merezh Nejron i miyelinovanij akson iz potokom signalu vid vhodiv na dendritah do vihodiv na terminalah aksona ShNM pochalisya yak sproba vikoristati arhitekturu lyudskogo mozku dlya vikonannya zavdan u yakih zvichajni algoritmi mali nevelikij uspih Nezabarom voni pereoriyentuvalisya na pokrashennya empirichnih rezultativ vidmovivshis vid sprob zalishatisya virnimi svoyim biologichnim poperednikam ShNM mayut zdatnist navchatisya nelinijnostej ta skladnih zv yazkiv ta modelyuvati yih Ce dosyagayetsya tim sho nejroni z yednuyutsya za riznimi shemami sho dozvolyaye vihodam odnih nejroniv stati vhodom inshih Cya merezha utvoryuye oriyentovanij zvazhenij graf Shtuchna nejronna merezha skladayetsya z imitacij nejroniv Kozhen nejron z yednano z inshimi vuzlami angl nodes lankami angl links yak biologichne z yednannya akson sinaps dendrit Usi vuzli z yednani lankami otrimuyut deyaki dani j vikoristovuyut yih dlya vikonannya pevnih operacij i zavdan z danimi Kozhna lanka maye vagu angl weight sho viznachaye silu vplivu odnogo vuzla na inshij dozvolyayuchi vagam obirati signal mizh nejronami Shtuchni nejroni ShNM skladayutsya zi shtuchnih nejroniv yaki konceptualno pohodyat vid biologichnih Kozhen shtuchnij nejron maye vhodi ta vidaye yedinij vihid yakij mozhlivo nadsilati bagatom inshim nejronam Vhodi angl inputs mozhut buti znachennyami oznak zrazka zovnishnih danih takih yak zobrazhennya chi dokumenti abo voni mozhut buti vihodami inshih nejroniv Vihodi kincevih nejroniv vihodu angl output neurons nejronnoyi merezhi zavershuyut zavdannya napriklad rozpiznavannya ob yekta na zobrazhenni Shobi znajti vihid nejrona mi beremo zvazhenu sumu vsih vhodiv zvazhenih za vagami z yednan angl connection weights vid vhodiv do nejrona Mi dodayemo do ciyeyi sumi zmishennya angl bias Cyu zvazhenu sumu inodi nazivayut zbudzhennyam angl activation Cyu zvazhenu sumu potim propuskayut kriz zazvichaj nelinijnu peredavalnu funkciyu angl activation function dlya otrimannya vihodu Pervinnimi vhodami ye zovnishni dani napriklad zobrazhennya ta dokumenti Kincevi vihodi zavershuyut zavdannya napriklad rozpiznavannya ob yekta na zobrazhenni Budova Nejroni zazvichaj vporyadkovano v kilka shariv angl layers osoblivo v glibokomu navchanni Nejroni odnogo sharu z yednuyutsya lishe z nejronami bezposeredno poperednogo j nastupnogo shariv Shar yakij otrimuye zovnishni dani ce shar vhodu angl input layer Shar yakij vidaye kincevij rezultat ce shar vihodu angl output layer Mizh nimi ye nul abo bilshe prihovanih shariv angl hidden layers Vikoristovuyut takozh odnosharovi angl single layer ta bezsharovi angl unlayered merezhi Mizh dvoma sharami mozhlivi kilka shem z yednannya Voni mozhut buti povnoz yednanimi angl fully connected koli kozhen nejron odnogo sharu z yednuyetsya z kozhnim nejronom nastupnogo sharu Voni mozhut buti agreguvalnimi angl pooling koli grupa nejroniv odnogo sharu z yednuyetsya z odnim nejronom nastupnogo sharu znizhuyuchi takim chinom kilkist nejroniv u comu shari Nejroni lishe z takimi zv yazkami utvoryuyut oriyentovanij aciklichnij graf i vidomi yak merezhi pryamogo poshirennya angl feedforward networks Krim togo merezhi yaki dozvolyayut z yednannya do nejroniv u tomu zhe abo poperednih sharah vidomi yak rekurentni merezhi angl recurrent networks Giperparametr Dokladnishe Giperparametr mashinne navchannya Giperparametr angl hyperparameter ce stalij parametr chiye znachennya vstanovlyuyut pered pochatkom procesu navchannya Znachennya zhe parametriv angl parameters vivodyat shlyahom navchannya Do prikladiv giperparametriv nalezhat temp navchannya angl learning rate kilkist prihovanih shariv i rozmir paketa Znachennya deyakih giperparametriv mozhut zalezhati vid znachen inshih giperparametriv Napriklad rozmir deyakih shariv mozhe zalezhati vid zagalnoyi kilkosti shariv Navchannya Cej rozdil mistit perelik posilan ale pohodzhennya tverdzhen u nomu zalishayetsya nezrozumilim cherez praktichno povnu vidsutnist vnutrishnotekstovih dzherel vinosok Bud laska dopomozhit polipshiti cej rozdil peretvorivshi dzherela z pereliku posilan na dzherela vinoski u samomu teksti rozdilu lipen 2023 Div takozh Matematichna optimizaciya Teoriya ocinyuvannya ta Mashinne navchannya Navchannya angl learning ce pristosovuvannya merezhi dlya krashogo vikonannya zavdannya shlyahom rozglyadu vibirkovih sposterezhen Navchannya vklyuchaye pidlashtovuvannya vag i mozhlivo porogiv merezhi dlya pidvishennya tochnosti rezultativ Ce zdijsnyuyetsya shlyahom minimizuvannya sposterezhuvanih pohibok Navchannya zaversheno yaksho rozglyad dodatkovih sposterezhen ne znizhuye rivnya pohibki Navit pislya navchannya riven pohibki zazvichaj ne dosyagaye 0 Yaksho navit pislya navchannya riven pohibki zanadto visokij zazvichaj potribno zminiti budovu merezhi Praktichno ce zdijsnyuyut shlyahom viznachennya funkciyi vitrat angl cost function yaku periodichno ocinyuyut protyagom navchannya Poki yiyi rezultat znizhuyetsya navchannya trivaye Vitrati chasto viznachayut yak statistiku znachennya yakoyi mozhlivo lishe nablizhuvati Vihodi naspravdi ye chislami tozh koli pohibka nizka riznicya mizh rezultatom majzhe napevno kit i pravilnoyu vidpoviddyu kit nevelika Navchannya namagayetsya zniziti zagalnu vidminnist nad sposterezhennyami Bilshist modelej navchannya mozhlivo rozglyadati yak pryame zastosuvannya teoriyi optimizaciyi ta statistichnogo ocinyuvannya Temp navchannya Dokladnishe Temp navchannya Temp navchannya angl learning rate viznachaye rozmir koriguvalnih krokiv yaki zdijsnyuye model dlya pidlashtovuvannya pid pohibku v kozhnomu sposterezhenni Visokij temp navchannya skorochuye trivalist trenuvannya ale z menshoyu kincevoyu tochnistyu todi yak nizhchij temp navchannya zajmaye bilshe chasu ale z potencialom do bilshoyi tochnosti Taki optimizaciyi yak en ukr shvidposhir perevazhno spryamovani na priskorennya minimizuvannya pohibki todi yak inshi vdoskonalennya perevazhno namagayutsya pidvishiti nadijnist Shobi zapobigti ciklichnim kolivannyam useredini merezhi takim yak cherguvannya vag z yednan i pokrashiti shvidkist zbigannya udoskonalennya vikoristovuyut adaptivnij temp navchannya yakij pidvishuyetsya abo znizhuyetsya nalezhnim chinom Koncepciya impulsu angl momentum dozvolyaye zvazhuvati balans mizh gradiyentom i poperednoyu zminoyu tak shobi pidlashtovuvannya vagi pevnoyu miroyu zalezhalo vid poperednoyi zmini Impuls blizkij do 0 dodaye vagi gradiyentovi todi yak znachennya blizke do 1 dodaye vagi krajnij zmini Funkciya vitrat Hocha j mozhlivo viznachati funkciyu vitrat ad hoc vibir chasto viznachayetsya bazhanimi vlastivostyami ciyeyi funkciyi takimi yak opuklist abo tim sho vona postaye z modeli napriklad u jmovirnisnij modeli aposteriornu jmovirnist modeli mozhlivo vikoristovuvati yak oberneni vitrati Zvorotne poshirennya Dokladnishe Zvorotne poshirennya Zvorotne poshirennya angl backpropagation ce metod yakij vikoristovuyut dlya pidlashtovuvannya vag z yednan dlya kompensuvannya kozhnoyi pomilki viyavlenoyi pid chas navchannya Velichina pomilki faktichno rozpodilyayetsya mizh z yednannyami Tehnichno zvorotne poshirennya obchislyuye gradiyent pohidnu funkciyi vitrat pov yazanij iz zadanim stanom vidnosno vag Utochnyuvannya vag mozhlivo zdijsnyuvati za dopomogoyu stohastichnogo gradiyentnogo spusku angl stochastic gradient descent abo inshih metodiv takih yak mashini ekstremalnogo navchannya bezposhirni angl no prop merezhi trenuvannya bez vertannya bezvagovi angl weightless merezhi ta en dzherelo Paradigmi navchannya Cej rozdil mistit perelik posilan ale pohodzhennya tverdzhen u nomu zalishayetsya nezrozumilim cherez praktichno povnu vidsutnist vnutrishnotekstovih dzherel vinosok Bud laska dopomozhit polipshiti cej rozdil peretvorivshi dzherela z pereliku posilan na dzherela vinoski u samomu teksti rozdilu lipen 2023 Mashinne navchannya zazvichaj podilyayut na tri osnovni paradigmi kerovane navchannya nekerovane navchannya ta navchannya z pidkriplennyam Kozhna vidpovidaye pevnomu navchalnomu zavdannyu Kerovane navchannya Kerovane navchannya angl supervised learning vikoristovuye nabir par vhodiv i bazhanih vihodiv Zavdannya navchannya polyagaye v tomu shobi dlya kozhnogo vhodu vidavati bazhanij vihid U comu vipadku funkciya vitrat pov yazana z usunennyam nepravilnogo visnovuvannya Vitrati yaki vikoristovuyut zazvichaj ce serednokvadratichna pohibka yaka namagayetsya minimizuvati serednyu kvadratichnu pohibku vihodu merezhi vidnosno bazhanogo vihodu Dlya kerovanogo navchannya pidhodyat zavdannya na rozpiznavannya obraziv takozh vidome yak klasifikuvannya ta regresiyu takozh vidome yak nablizhennya funkciyi Kerovane navchannya takozh zastosovne do poslidovnih danih napriklad dlya rozpiznavannya rukopisnogo tekstu movlennya ta en Jogo mozhlivo rozglyadati yak navchannya z uchitelem u viglyadi funkciyi yaka zabezpechuye bezperervnij zvorotnij zv yazok shodo yakosti otrimanih na danij moment rishen Nekerovane navchannya U nekerovanim navchanni angl unsupervised learning dani vhodu nadayutsya razom iz funkciyeyu vitrat deyakoyu funkciyeyu vid danih x displaystyle textstyle x ta vihodu merezhi Funkciya vitrat zalezhit vid zavdannya oblasti modeli ta bud yakih apriornih pripushen neyavnih vlastivostej modeli yiyi parametriv ta sposterezhuvanih zminnih Yak trivialnij priklad rozglyanmo model f x a displaystyle textstyle f x a de a displaystyle textstyle a stala a vitrati C E x f x 2 displaystyle textstyle C E x f x 2 Minimizaciya cih vitrat daye znachennya a displaystyle textstyle a sho dorivnyuye serednomu znachennyu danih Funkciya vitrat mozhe buti nabagato skladnishoyu Yiyi viglyad zalezhit vid zastosuvannya napriklad u stisnenni vona mozhe buti pov yazanoyu iz vzayemnoyu informaciyeyu mizh x displaystyle textstyle x ta f x displaystyle textstyle f x todi yak u statistichnomu modelyuvanni vona mozhe buti pov yazanoyu z aposteriornoyu jmovirnistyu modeli za zadanih danih zvernit uvagu sho v oboh cih prikladah ci velichini pidlyagayut maksimizuvannyu a ne minimizuvannyu Zavdannya yaki pidpadayut pid paradigmu nekerovanogo navchannya ce zazvichaj zadachi ocinyuvannya do cih zastosuvan nalezhat klasteruvannya ocinyuvannya statistichnih rozpodiliv stiskannya ta filtruvannya Navchannya z pidkriplennyam Dokladnishe Navchannya z pidkriplennyam Div takozh en U takih zastosuvannyah yak gra u videoigri diyach angl actor vikonuye nizku dij angl actions otrimuyuchi zagalom neperedbachuvanij vidguk vid seredovisha pislya kozhnoyi z nih Meta polyagaye v tomu shobi vigrati gru tobto poroditi najbilshu kilkist pozitivnih z najmenshimi vitratami vidgukiv U navchanni z pidkriplennyam angl reinforcement learning meta polyagaye v tomu shobi zvazhiti merezhu rozrobiti strategiyu angl policy dlya vikonannya dij yaka minimizuye dovgostrokovi ochikuvani sukupni vitrati U kozhen moment chasu diyach vikonuye diyu a seredovishe porodzhuye sposterezhennya ta mittyevi vitrati vidpovidno do deyakih zazvichaj nevidomih pravil Zazvichaj pravila j dovgostrokovi vitrati mozhlivo lishe ocinyuvati U bud yakij moment diyach virishuye chi dosliditi novi diyi shob rozkriti svoyi vitrati a chi skoristatisya poperednim znannyam dlya shvidshogo vikonannya Formalno seredovishe modelyuyut yak markovskij proces virishuvannya MPV zi stanami s 1 s n S displaystyle textstyle s 1 s n in S ta diyami a 1 a m A displaystyle textstyle a 1 a m in A Oskilki perehodi staniv nevidomi zamist nih vikoristovuyut rozpodili jmovirnosti rozpodil mittyevih vitrat P c t s t displaystyle textstyle P c t s t rozpodil sposterezhen P x t s t displaystyle textstyle P x t s t ta rozpodil perehodiv P s t 1 s t a t displaystyle textstyle P s t 1 s t a t todi yak strategiyu viznachayut yak umovnij rozpodil dij za danih sposterezhen Vzyati razom voni viznachayut markovskij lancyug ML Meta polyagaye u viyavlenni ML iz najmenshimi vitratami ShNM u takih zastosuvannyah sluguyut skladovoyu yaka zabezpechuye navchannya Dinamichne programuvannya u poyednanni z ShNM sho daye nejrodinamichne programuvannya bulo zastosovano do takih zadach yak ti sho stosuyutsya en videoigor prirodokoristuvannya ta medicini cherez zdatnist ShNM pom yakshuvati vtrati tochnosti navit pri zmenshenni shilnosti gratki en dlya chiselnogo nablizhennya rozv yazkiv zadach keruvannya Zavdannya yaki pidpadayut pid paradigmu navchannya z pidkriplennyam ce zavdannya keruvannya igri ta inshi poslidovni zavdannya uhvalyuvannya rishen Samonavchannya Samonavchannya angl self learning v nejronnih merezhah bulo zaproponovano 1982 roku razom iz nejronnoyu merezheyu zdatnoyu do samonavchannya nazvanoyu poperechinnim adaptivnim masivom PAM angl crossbar adaptive array CAA Ce sistema lishe z odnim vhodom situaciyeyu s j lishe odnim vihodom diyeyu abo povedinkoyu a Vona ne maye ani vhodu zovnishnih porad ani vhodu zovnishnogo pidkriplennya z boku seredovisha PAM obchislyuye poperechnim chinom yak rishennya shodo dij tak i emociyi pochuttya shodo viniklih situacij Cya sistema keruyetsya vzayemodiyeyu mizh piznannyam ta emociyami Za zadanoyi matrici pam yati W w a s poperechinnij algoritm samonavchannya na kozhnij iteraciyi vikonuye nastupne obchislennya U situaciyi s vikonati diyu a Otrimati naslidkovu situaciyu s Obchisliti emociyu perebuvannya v naslidkovij situaciyi v s Utochniti poperechinnu pam yat w a s w a s v s Poshiryuvane zvorotno znachennya vtorinne pidkriplennya angl secondary reinforcement ce emociya shodo naslidkiv situaciyi PAM isnuye u dvoh seredovishah odne povedinkove seredovishe de vona povoditsya a inshe genetichne seredovishe de vona spochatku j lishe odin raz otrimuye pochatkovi emociyi shodo situacij z yakimi mozhlivo zitknutisya v povedinkovomu seredovishi Otrimavshi genomnij vektor vidovij vektor angl genome vector species vector iz genetichnogo seredovisha PAM navchatimetsya cilespryamovanoyi povedinki v povedinkovomu seredovishi sho mistit yak bazhani tak i nebazhani situaciyi Nejroevolyuciya Dokladnishe Nejroevolyuciya Nejroevolyuciya angl neuroevolution mozhe stvoryuvati topologiyi ta vagi nejronnoyi merezhi za dopomogoyu evolyucijnogo obchislennya Zavdyaki suchasnim vdoskonalennyam nejroevolyuciya konkuruye zi skladnimi pidhodami gradiyentnogo spusku Odna z perevag nejroevolyuciyi polyagaye v tomu sho vona mozhe buti mensh shilnoyu potraplyati v gluhij kut Stohastichna nejronna merezha Stohastichni nejronni merezhi angl stochastic neural networks sho pohodyat vid en ce odin z tipiv shtuchnih nejronnih merezh pobudovanij shlyahom vvedennya vipadkovih variacij u merezhu abo nadavannyam shtuchnim nejronam merezhi stohastichnih peredavalnih funkcij abo nadavannyam yim stohastichnih vag Ce robit yih korisnimi instrumentami dlya rozv yazuvannya zadach optimizaciyi oskilki vipadkovi fluktuaciyi dopomagayut merezhi unikati lokalnih minimumiv Stohastichni nejronni merezhi trenovani za dopomogoyu bayesovogo pidhodu vidomi yak bayesovi nejronni merezhi angl Bayesian neural network Inshi U bayesovij sistemi obirayut rozpodil nad naborom dozvolenih modelej takim chinom shobi minimizuvati vitrati Inshimi algoritmami navchannya ye evolyucijni metodi en imituvannya vidpalyuvannya ochikuvannya maksimizaciya en ta metod royu chastinok Zbizhna rekursiya angl convergent recursion ce algoritm navchannya dlya nejronnih merezh en AKMM angl cerebellar model articulation controller CMAC Rezhimi Cej rozdil mistit perelik posilan ale pohodzhennya tverdzhen u nomu zalishayetsya nezrozumilim cherez praktichno povnu vidsutnist vnutrishnotekstovih dzherel vinosok Bud laska dopomozhit polipshiti cej rozdil peretvorivshi dzherela z pereliku posilan na dzherela vinoski u samomu teksti rozdilu lipen 2023 Ye dva rezhimi navchannya stohastichnij angl stochastic ta paketnij angl batch U stohastichnomu navchanni kozhen vhid stvoryuye pidlashtovuvannya vag U paketnomu navchanni vagi pidlashtovuyut na osnovi paketu vhodiv nakopichuyuchi pohibki v paketi Stohastichne navchannya vnosit shum do procesu vikoristovuyuchi lokalnij gradiyent rozrahovanij z odniyeyi tochki danih ce znizhuye shans zastryagannya merezhi v lokalnih minimumah Prote paketne navchannya zazvichaj daye shvidshij i stabilnishij spusk do lokalnogo minimumu oskilki kozhne utochnennya vikonuyetsya v napryamku userednenoyi pohibki paketa Poshirenim kompromisom ye vikoristannya minipaketiv angl mini batches nevelikih paketiv zi zrazkami v kozhnomu paketi obranimi stohastichno z usogo naboru danih TipiDokladnishe Tipi shtuchnih nejronnih merezh ShNM evolyuciyuvali u shiroke simejstvo metodik yaki vdoskonalili riven ostannih dosyagnen u bagatoh oblastyah Najprostishi tipi mayut odin abo kilka statichnih skladovih vklyuchno z kilkistyu vuzliv kilkistyu shariv vagami vuzliv i topologiyeyu Dinamichni tipi dozvolyayut odnomu abo dekilkom iz nih evolyuciyuvati shlyahom navchannya Ostannye nabagato skladnishe ale mozhe skorochuvati periodi navchannya j davati krashi rezultati Deyaki tipi dozvolyayut vimagayut navchannya pid keruvannyam operatora todi yak inshi pracyuyut nezalezhno Deyaki tipi pracyuyut viklyuchno aparatno todi yak inshi ye suto programnimi j pracyuyut na komp yuterah zagalnogo priznachennya Do deyakih z osnovnih proriviv nalezhat zgortkovi nejronni merezhi yaki viyavilisya osoblivo uspishnimi v obrobci vizualnih ta inshih dvovimirnih danih dovga korotkochasna pam yat sho dozvolyaye unikati problemi znikannya gradiyenta j mozhe obroblyati signali yaki mistyat sumish nizko ta visokochastotnih skladovih sho dopomagaye v rozpiznavanni movlennya z velikim slovnikovim zapasom sintezuvanni movlennya z tekstu ta fotorealistichnih golovah sho rozmovlyayut konkurentni merezhi angl competitive networks taki yak porodzhuvalni zmagalni merezhi v yakih chislenni merezhi riznoyi strukturi zmagayutsya odna z odnoyu v takih zavdannyah yak peremoga v gri abo vvedennya oponenta v omanu shodo avtentichnosti vhodu Pobudova merezhDokladnishe Poshuk nejroarhitekturi Poshuk nejronnoyi arhitekturi PNA angl neural architecture search NAS vikoristovuye mashinne navchannya dlya avtomatizuvannya pobudovi ShNM Rizni pidhodi do PNA pobuduvali merezhi dobre porivnyanni z sistemami rozroblenimi vruchnu Osnovnim algoritmom cogo poshuku ye proponuvati model kandidatku ocinyuvati yiyi za naborom danih i vikoristovuvati rezultati yak zvorotnij zv yazok dlya navchannya merezhi PNA Sered dostupnih sistem AvtoMN ta AutoKeras Do problem pobudovi nalezhat viznachennya kilkosti tipu ta z yednanosti rivniv merezhi a takozh rozmiru kozhnogo ta tipu z yednannya povne agreguvalne Giperparametri takozh slid viznachati yak chastinu pobudovi yih ne navchayutsya keruyuchi takimi pitannyami yak kilkist nejroniv u kozhnomu shari temp navchannya krok krok filtriv angl stride glibina receptivne pole ta dopovnennya dlya ZNM tosho VikoristannyaCej rozdil ne mistit posilan na dzherela Vi mozhete dopomogti polipshiti cej rozdil dodavshi posilannya na nadijni avtoritetni dzherela Material bez dzherel mozhe buti piddano sumnivu ta vilucheno lipen 2023 Vikoristannya shtuchnih nejronnih merezh vimagaye rozuminnya yihnih harakteristik Vibir modeli Ce zalezhit vid podannya danih ta zastosuvannya Nadmirno skladni modeli navchayutsya povilno Algoritm navchannya Isnuyut chislenni kompromisi mizh algoritmami navchannya Majzhe kozhen algoritm pracyuvatime dobre z pravilnimi giperparametrami dlya trenuvannya na pevnomu nabori danih Prote obrannya ta nalashtuvannya algoritmu dlya navchannya na nebachenih danih vimagaye znachnogo eksperimentuvannya Robastnist Yaksho model funkciyu vitrat ta algoritm navchannya obrano nalezhnim chinom to otrimana ShNM mozhe stati robastnoyu Mozhlivosti ShNM pidpadayut pid nastupni shiroki kategoriyi en abo regresijnij analiz vklyuchno z peredbachuvannyam chasovih ryadiv en ta modelyuvannyam Klasifikuvannya vklyuchno z rozpiznavannyam obraziv ta poslidovnostej en ta poslidovnim uhvalyuvannyam rishen Obrobka danih vklyuchno z filtruvannyam klasteruvannyam en ta stiskannyam Robototehnika vklyuchno zi skerovuvannyam manipulyatoriv ta proteziv ZastosuvannyaZavdyaki svoyij zdatnosti vidtvoryuvati ta modelyuvati nelinijni procesi shtuchni nejronni merezhi znajshli zastosuvannya v bagatoh disciplinah Do sfer zastosuvannya nalezhat en ta keruvannya nimi keruvannya transportnimi zasobami peredbachuvannya trayektoriyi keruvannya procesami prirodokoristuvannya kvantova himiya en rozpiznavannya obraziv radarni sistemi vstanovlyuvannya oblich klasifikuvannya signaliv trivimirna vidbudova rozpiznavannya ob yektiv tosho analiz danih davachiv rozpiznavannya poslidovnostej rozpiznavannya zhestiv movlennya rukopisnogo ta drukovanogo tekstu medichna diagnostika finansi napriklad en modeli dlya okremih finansovih dovgotrivalih prognoziv ta en dobuvannya danih unaochnyuvannya mashinnij pereklad socialnomerezhne filtruvannya ta filtruvannya en ShNM vikoristovuvali dlya diagnostuvannya kilkoh tipiv raku ta dlya vidriznyuvannya visokoinvazivnih linij rakovih klitin vid mensh invazivnih z vikoristannyam lishe informaciyi pro formu klitin ShNM vikoristovuvali dlya priskoryuvannya analizu nadijnosti infrastrukturi sho piddayetsya stihijnim liham i dlya prognozuvannya prosidannya fundamentiv Takozh mozhe buti korisnim pom yakshuvati poveni shlyahom vikoristannya ShNM dlya modelyuvannya doshovogo stoku ShNM takozh vikoristovuvali dlya pobudovi chornoskrinkovih modelej v geonaukah gidrologiyi modelyuvanni okeanu ta en ta geomorfologiyi ShNM vikoristovuyut u kiberbezpeci z metoyu rozmezhovuvannya zakonnoyi diyalnosti vid zlovmisnoyi Napriklad mashinne navchannya vikoristovuvali dlya klasifikuvannya zlovmisnogo programnogo zabezpechennya pid Android dlya viznachannya domeniv sho nalezhat sub yektam zagrozi i dlya viyavlyannya URL adres yaki stanovlyat zagrozu bezpeci Vedutsya doslidzhennya sistem ShNM priznachenih dlya viprobuvannya na proniknennya dlya viyavlyannya bot merezh shahrajstva z kreditnimi kartkami ta merezhnih vtorgnen ShNM proponuvali yak instrument dlya rozv yazuvannya chastinnih diferencialnih rivnyan u fizici ta modelyuvannya vlastivostej bagatochastinkovih en U doslidzhenni mozku ShNM vivchali korotkochasnu povedinku okremih nejroniv dinamiku nejronnih lancyugiv sho vinikaye cherez vzayemodiyu mizh okremimi nejronami ta te yak povedinka mozhe vinikati z abstraktnih nejronnih moduliv yaki podayut cili pidsistemi Doslidzhennya rozglyadali dovgostrokovu ta korotkochasnu plastichnist nejronnih sistem ta yihnij zv yazok iz navchannyam i pam yattyu vid okremogo nejrona do sistemnogo rivnya Teoretichni vlastivostiObchislyuvalna potuzhnist Yak dovedeno teoremoyu Cibenka bagatosharovij perceptron ce en nablizhuvach funkcij Prote ce dovedennya ne konstruktivne shodo kilkosti neobhidnih nejroniv topologiyi merezhi vag ta parametriv navchannya Osobliva rekurentna arhitektura z racionalnoznachnimi vagami na protivagu do povnotochnisnih dijsnoznachnih vag maye potuzhnist universalnoyi mashini Tyuringa vikoristovuyuchi skinchennu kilkist nejroniv ta standartni linijni z yednannya Krim togo vikoristannya irracionalnih znachen dlya vag daye v rezultati mashinu z nadtyuringovoyu potuzhnistyu vidsutnye v dzhereli Yemnist Vlastivist yemnosti angl capacity modeli vidpovidaye yiyi zdatnosti modelyuvati bud yaku zadanu funkciyu Vona pov yazana z obsyagom informaciyi yakij mozhlivo zberegti v merezhi ta z ponyattyam skladnosti Sered spilnoti vidomi dva ponyattya yemnosti informacijna yemnist ta VCh rozmirnist Informacijnu yemnist angl information capacity perceptrona retelno obgovoreno v knizi sera Devida Makkeya yaka pidsumovuye robotu Tomasa Kovera Yemnist merezhi standartnih nejroniv ne zgortkovih mozhlivo otrimuvati za chotirma pravilami yaki viplivayut iz rozuminnya nejrona yak elektrichnogo elementa Informacijna yemnist ohoplyuye funkciyi yaki mozhlivo zmodelyuvati merezheyu za dovilnih danih vhodu Druge ponyattya VCh rozmirnist angl VC Dimension VCh rozmirnist vikoristovuye principi teoriyi miri ta znahodit maksimalnu yemnist za najkrashih mozhlivih obstavin Ce za danih vhodu pevnogo viglyadu Yak zaznacheno u VCh rozmirnist dlya dovilnih vhodiv stanovit polovinu informacijnoyi yemnosti perceptrona VCh rozmirnist dlya dovilnih tochok inodi nazivayut yemnistyu pam yati angl Memory Capacity Zbizhnist Modeli mozhut ne zbigatisya poslidovno na yedinomu rozv yazku po pershe cherez mozhlivist isnuvannya lokalnih minimumiv zalezhno vid funkciyi vitrat ta modeli Po druge vzhivanij metod optimizaciyi mozhe ne garantuvati zbizhnosti yaksho vin pochinayetsya daleko vid bud yakogo lokalnogo minimumu Po tretye dlya dosit velikih danih abo parametriv deyaki metodi stayut nepraktichnimi Insha varta zgadki problema polyagaye v tomu sho navchannya mozhe prohoditi kriz deyaku sidlovu tochku sho mozhe prizvoditi do zbigannya v nepravilnomu napryamku Povedinka zbizhnosti pevnih tipiv arhitektur ShNM zrozumilisha nizh inshih Koli shirina merezhi nablizhayetsya do neskinchennosti ShNM dobre opisuyetsya svoyim rozvinennyam u ryad Tejlora pershogo poryadku protyagom navchannya i tomu uspadkovuye povedinku zbizhnosti en Inshij priklad koli parametri mali sposterigayetsya sho ShNM chasto dopasovuyutsya do cilovih funkcij vid nizkih do visokih chastot Taku povedinku nazivayut spektralnim zmishennyam angl spectral bias abo chastotnim principom angl frequency principle nejronnih merezh Ce yavishe protilezhne povedinci deyakih dobre vivchenih iteracijnih chislovih shem takih yak metod Yakobi Bulo viyavleno sho glibshi nejronni merezhi shilnishi do nizkochastotnih funkcij Uzagalnyuvalnist ta statistika Cej rozdil mistit perelik posilan ale pohodzhennya tverdzhen u nomu zalishayetsya nezrozumilim cherez praktichno povnu vidsutnist vnutrishnotekstovih dzherel vinosok Bud laska dopomozhit polipshiti cej rozdil peretvorivshi dzherela z pereliku posilan na dzherela vinoski u samomu teksti rozdilu lipen 2023 Zastosuvannya metoyu yakih ye stvorennya sistemi sho dobre uzagalnyuyetsya do nevidomih zrazkiv stikayutsya z mozhlivistyu peretrenuvannya Vono vinikaye v zaplutanih abo nadmirno viznachenih sistemah koli yemnist merezhi znachno perevishuye potrebu u vilnih parametrah Isnuye dva pidhodi yak vporuvatisya z peretrenuvannyam Pershij polyagaye u vikoristanni perehresnogo zatverdzhuvannya ta podibnih metodiv dlya perevirki nayavnosti perenavchannya ta obiranni giperparametriv dlya zvedennya pohibki uzagalnennya do minimumu Drugij polyagaye u vikoristanni yakogos iz vidiv regulyarizaciyi Ce ponyattya vinikaye v imovirnisnij bayesovij sistemi de regulyarizaciyu mozhlivo vikonuvati shlyahom obirannya bilshoyi apriornoyi jmovirnosti nad prostishimi modelyami ale takozh i v teoriyi statistichnogo navchannya de metoyu ye zvoditi do minimumu dvi velichini empirichnij rizik ta strukturnij rizik sho grubo vidpovidayut pohibci nad trenuvalnim naborom ta peredbachuvanij pohibci v nebachenih danih cherez perenavchannya Dovirchij analiz nejronnoyi merezhi Nejronni merezhi kerovanogo navchannya yaki vikoristovuyut yak funkciyu vitrat serednokvadratichnu pohibku SKP dlya viznachennya doviri do trenovanoyi modeli mozhut vikoristovuvati formalni statistichni metodi SKP na zatverdzhuvalnomu nabori mozhlivo vikoristovuvati yak ocinku dispersiyi Ce znachennya potim mozhlivo vikoristovuvati dlya obchislennya dovirchogo intervalu vihodu merezhi vihodyachi z normalnogo rozpodilu Zdijsnenij takim chinom analiz doviri statistichno chinnij poki rozpodil imovirnosti vihodu zalishayetsya nezminnim i ne vnositsya zmin do merezhi Priznachennya normovanoyi eksponencijnoyi funkciyi uzagalnennya logistichnoyi funkciyi yak peredavalnoyi funkciyi sharu vihodu nejronnoyi merezhi abo normovanoyi eksponencijnoyi skladovoyi v nejronnij merezhi na osnovi skladovih dlya kategorijnih cilovih zminnih daye mozhlivist interpretuvati vihodi yak aposteriorni jmovirnosti Ce korisno dlya klasifikuvannya oskilki daye miru vpevnenosti v klasifikaciyah Normovana eksponencijna funkciya angl softmax ce y i e x i j 1 c e x j displaystyle y i frac e x i sum j 1 c e x j KritikaTrenuvannya Poshirena kritika nejronnih merezh osoblivo v robototehnici polyagaye v tomu sho dlya roboti v realnomu sviti voni vimagayut zabagato trenuvannya Do potencijnih rozv yazan nalezhit vipadkove perestavlyannya trenuvalnih zrazkiv zastosuvannya algoritmu chiselnoyi optimizaciyi yakij ne vimagaye zavelikih krokiv pri zmini z yednan merezhi slidom za zrazkom grupuvannya zrazkiv do tak zvanih mini paketiv angl mini batches ta abo zaprovadzhennya algoritmu rekursivnih najmenshih kvadrativ dlya en Teoriya Golovna pretenziya dzherelo ShNM polyagaye v tomu sho voni vtilyuyut novi potuzhni zagalni principi obrobki informaciyi Ci principi pogano viznacheni Chasto stverdzhuyut hto sho voni vinikayut iz samoyi merezhi Ce dozvolyaye opisuvati prostu statistichnu asociaciyu osnovnu funkciyu shtuchnih nejronnih merezh yak navchannya abo rozpiznavannya 1997 roku en zauvazhiv sho v rezultati shtuchni nejronni merezhi mayut risi chogos darmovogo chogos nadilenogo osoblivoyu auroyu ledarstva ta viraznoyi vidsutnosti zacikavlennya hoch bi tim naskilki dobrimi ci komp yuterni sistemi ye Zhodnogo vtruchannya lyudskoyi ruki ta rozumu rozv yazki znahodyatsya mov charivnoyu siloyu i nihto shozhe tak nichogo j ne navchivsya Odniyeyu z vidpovidej Dyudni ye te sho nejronni merezhi rozv yazuyut bagato skladnih i riznomanitnih zavdan pochinayuchi vid avtonomnogo litalnogo aparata do viyavlyannya shahrajstva z kreditnimi kartkami j zavershuyuchi opanuvannyam gri v Go Pismennik u galuzi tehnologij Rodzher Bridzhmen prokomentuvav ce tak Nejronni merezhi napriklad znahodyatsya na lavi pidsudnih ne lishe cherez te sho yih rozreklamuvali do nebes hiba ni a j cherez te sho vi mozhete stvoriti uspishnu merezhu ne rozumiyuchi yak vona pracyuye kupa chisel yaki fiksuyut yiyi povedinku jmovirno bude neprozoroyu nechitabelnoyu tabliceyu nichogo ne vartoyu yak naukovij resurs Nezvazhayuchi na svoyu ekspresivnu zayavu pro te sho nauka ce ne tehnologiya Dyudni zdayetsya ganbit nejronni merezhi yak poganu nauku todi yak bilshist iz tih hto yih rozroblyaye prosto namagayutsya buti dobrimi inzhenerami Nechitabelna tablicya yaku mozhe chitati korisna mashina vse odno bude velmi varta togo shobi yiyi mati Originalnij tekst angl Neural networks for instance are in the dock not only because they have been hyped to high heaven what hasn t but also because you could create a successful net without understanding how it worked the bunch of numbers that captures its behaviour would in all probability be an opaque unreadable table valueless as a scientific resource In spite of his emphatic declaration that science is not technology Dewdney seems here to pillory neural nets as bad science when most of those devising them are just trying to be good engineers An unreadable table that a useful machine could read would still be well worth having Biologichnij mozok vikoristovuye yak negliboki tak i gliboki shemi yak povidomlyaye anatomiya mozku demonstruyuchi shirokij spektr invariantnosti Veng stverdzhuvav sho mozok samostijno vstanovlyuye zv yazki v osnovnomu vidpovidno do statistiki signaliv i tomu poslidovnij kaskad ne mozhe vloviti vsi osnovni statistichni zalezhnosti Aparatne zabezpechennya Veliki j efektivni nejronni merezhi vimagayut znachnih obchislyuvalnih resursiv U toj chas yak mozok maye aparatne zabezpechennya idealno pristosovane dlya zadachi obrobki signaliv grafom nejroniv imitaciya navit sproshenogo nejronu na arhitekturi fon Nejmana mozhe spozhivati velicheznu kilkist pam yati ta diskovogo prostoru Krim togo rozrobnikovi chasto potribno peredavati signali bagatma cimi z yednannyami ta pov yazanimi z nimi nejronami sho vimagaye velicheznoyi obchislyuvalnoyi potuzhnosti ta chasu CP Shmidhuber zaznachiv sho vidrodzhennya nejronnih merezh u dvadcyat pershomu storichchi znachnoyu miroyu obumovleno dosyagnennyami v aparatnomu zabezpechenni z 1991 do 2015 roku obchislyuvalna potuzhnist osoblivo zabezpechuvana GPZP na GP zrosla priblizno v miljon raziv zrobivshi standartnij algoritm zvorotnogo poshirennya pridatnim dlya navchannya merezh na kilka rivniv glibshih nizh ranishe Vikoristannya priskoryuvachiv takih yak PKVM ta GP mozhe skorochuvati trivalist trenuvannya z misyaciv do dniv Nejromorfna inzheneriya abo en rozv yazuye problemu aparatnogo zabezpechennya bezposeredno stvoryuyuchi mikroshemi vidminni vid fon nejmanovih dlya bezposerednogo vtilennya nejronnih merezh u shemah She odna mikroshema optimizovana dlya obrobki nejronnih merezh zvetsya tenzornim procesorom abo TP angl Tensor Processing Unit TPU Praktichni kontrprikladi Analizuvati te chogo navchilasya ShNM nabagato legshe nizh analizuvati te chogo navchilasya biologichna nejronna merezha Krim togo doslidniki yaki berut uchast u poshuku algoritmiv navchannya dlya nejronnih merezh postupovo rozkrivayut zagalni principi sho dozvolyayut mashini sho vchitsya buti uspishnoyu Napriklad lokalne j nelokalne navchannya ta negliboka j gliboka arhitektura Gibridni pidhodi Pribichniki en modelej sho poyednuyut nejronni merezhi ta simvolni pidhodi stverdzhuyut sho taka sumish mozhe krashe vlovlyuvati mehanizmi lyudskogo rozumu GalereyaOdnosharova shtuchna nejronna merezha pryamogo poshirennya Strilki sho vihodyat z x 2 displaystyle scriptstyle x 2 dlya naochnosti opusheno Ye p vhodiv do ciyeyi merezhi j q vihodiv U cij sistemi znachennya q togo vihodu y q displaystyle scriptstyle y q obchislyuvatimetsya yak y q K x i w i q b q displaystyle scriptstyle y q K sum x i w iq b q Dvosharova shtuchna nejronna merezha pryamogo poshirennya Shtuchna nejronna merezha Graf zalezhnostej ShNM Odnosharova shtuchna nejronna merezha pryamogo poshirennya z 4 vhodami 6 prihovanimi vuzlami ta 2 vihodami Dlya zadanogo stanu polozhennya ta napryamu vivodit znachennya keruvannya dlya kolis Dvosharova shtuchna nejronna merezha pryamogo poshirennya z 8 vhodami 2 8 prihovanimi vuzlami ta 2 vihodami Dlya zadanogo stanu polozhennya napryamu ta inshih zminnih seredovisha vidaye znachennya keruvannya dlya manevrovih dviguniv Paralelno konveyerna struktura nejronnoyi merezhi en Cej algoritm navchannya zdaten zbigatisya za odin krok Div takozhAvtokoduvalnik ADALINE en en en en Kvantova nejronna merezha en en en Nejronnij gaz en Paralelno rozpodilena obrobka en Proyekt Blue Brain en Rekurentni nejronni merezhi en en en Filosofiya shtuchnogo intelektuVinoskiDlya keruvannya en 1995 go roku znadobilosya lishe kilka vipadkiv lyudskoyi dopomogi PrimitkiHardesty Larry 14 kvitnya 2017 Explained Neural networks MIT News Office Procitovano 2 chervnya 2022 angl Yang Z R Yang Z 2014 Comprehensive Biomedical Physics Karolinska Institute Stockholm Sweden Elsevier s 1 ISBN 978 0 444 53633 4 originalu za 28 lipnya 2022 Procitovano 28 lipnya 2022 angl Mansfield Merriman A List of Writings Relating to the Method of Least Squares angl Stigler Stephen M 1981 Gauss and the Invention of Least Squares Ann Stat 9 3 465 474 doi 10 1214 aos 1176345451 angl Bretscher Otto 1995 Linear Algebra With Applications vid 3rd Upper Saddle River NJ Prentice Hall angl Schmidhuber Juergen 2022 Annotated History of Modern AI and Deep Learning arXiv 2212 11279 cs NE angl 1986 The History of Statistics The Measurement of Uncertainty before 1900 Cambridge Harvard ISBN 0 674 40340 1 angl Brush Stephen G 1967 History of the Lenz Ising Model Reviews of Modern Physics 39 4 883 893 Bibcode 1967RvMP 39 883B doi 10 1103 RevModPhys 39 883 angl Amari Shun Ichi 1972 Learning patterns and pattern sequences by self organizing nets of threshold elements IEEE Transactions C 21 1197 1206 angl Hopfield J J 1982 Neural networks and physical systems with emergent collective computational abilities Proceedings of the National Academy of Sciences 79 8 2554 2558 Bibcode 1982PNAS 79 2554H doi 10 1073 pnas 79 8 2554 PMC 346238 PMID 6953413 angl McCulloch Warren Walter Pitts 1943 A Logical Calculus of Ideas Immanent in Nervous Activity Bulletin of Mathematical Biophysics 5 4 115 133 doi 10 1007 BF02478259 angl Kleene S C 1956 Representation of Events in Nerve Nets and Finite Automata Annals of Mathematics Studies 34 Princeton University Press s 3 41 Procitovano 17 chervnya 2017 angl Hebb Donald 1949 The Organization of Behavior New York Wiley ISBN 978 1 135 63190 1 angl Farley B G W A Clark 1954 Simulation of Self Organizing Systems by Digital Computer IRE Transactions on Information Theory 4 4 76 84 doi 10 1109 TIT 1954 1057468 angl Haykin 2008 Neural Networks and Learning Machines 3rd edition angl Rosenblatt F 1958 The Perceptron A Probabilistic Model For Information Storage And Organization in the Brain Psychological Review 65 6 386 408 CiteSeerX 10 1 1 588 3775 doi 10 1037 h0042519 PMID 13602029 S2CID 12781225 angl Werbos P J 1975 Beyond Regression New Tools for Prediction and Analysis in the Behavioral Sciences angl Rosenblatt Frank 1957 The Perceptron a perceiving and recognizing automaton Report 85 460 1 Cornell Aeronautical Laboratory angl Olazaran Mikel 1996 A Sociological Study of the Official History of the Perceptrons Controversy Social Studies of Science 26 3 611 659 doi 10 1177 030631296026003005 JSTOR 285702 S2CID 16786738 angl Minsky Marvin Papert Seymour 1969 Perceptrons An Introduction to Computational Geometry MIT Press ISBN 978 0 262 63022 1 angl Schmidhuber J 2015 Deep Learning in Neural Networks An Overview Neural Networks 61 85 117 arXiv 1404 7828 doi 10 1016 j neunet 2014 09 003 PMID 25462637 S2CID 11715509 angl Ivakhnenko A G 1973 Cybernetic Predicting Devices CCM Information Corporation angl Ivakhnenko A G Lapa Valentin Grigorʹevich 1967 Cybernetics and forecasting techniques American Elsevier Pub Co angl Robbins H Monro S 1951 A Stochastic Approximation Method The Annals of Mathematical Statistics 22 3 400 doi 10 1214 aoms 1177729586 angl 1967 A theory of adaptive pattern classifier IEEE Transactions EC 16 279 307 angl Kohonen Teuvo Honkela Timo 2007 Kohonen Network Scholarpedia 2 1 1568 Bibcode 2007SchpJ 2 1568K doi 10 4249 scholarpedia 1568 angl Kohonen Teuvo 1982 Self Organized Formation of Topologically Correct Feature Maps Biological Cybernetics 43 1 59 69 doi 10 1007 bf00337288 S2CID 206775459 angl Von der Malsburg C 1973 Self organization of orientation sensitive cells in the striate cortex Kybernetik 14 2 85 100 doi 10 1007 bf00288907 PMID 4786750 S2CID 3351573 angl Fukushima Kunihiko 1980 Neocognitron A Self organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position PDF Biological Cybernetics 36 4 193 202 doi 10 1007 BF00344251 PMID 7370364 S2CID 206775608 Procitovano 16 listopada 2013 angl Fukushima K 1969 Visual feature extraction by a multilayered network of analog threshold elements IEEE Transactions on Systems Science and Cybernetics 5 4 322 333 doi 10 1109 TSSC 1969 300225 angl Ramachandran Prajit Barret Zoph Quoc V Le 16 zhovtnya 2017 Searching for Activation Functions arXiv 1710 05941 cs NE angl Leibniz Gottfried Wilhelm Freiherr von 1920 The Early Mathematical Manuscripts of Leibniz Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes Leibniz published the chain rule in a 1676 memoir angl Open court publishing Company angl 1970 The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors Masters fin University of Helsinki s 6 7 1976 Taylor expansion of the accumulated rounding error BIT Numerical Mathematics 16 2 146 160 doi 10 1007 bf01931367 S2CID 122357351 angl Griewank Andreas 2012 Who Invented the Reverse Mode of Differentiation Optimization Stories Documenta Matematica Extra Volume ISMP s 389 400 S2CID 15568746 angl Griewank Andreas 2008 Evaluating Derivatives Principles and Techniques of Algorithmic Differentiation Second Edition SIAM ISBN 978 0 89871 776 1 angl Rosenblatt Frank 1962 Principles of Neurodynamics Spartan New York angl 1960 Gradient theory of optimal flight paths ARS Journal 30 10 947 954 doi 10 2514 8 5282 angl A gradient method for optimizing multi stage allocation processes Proceedings of the Harvard Univ Symposium on digital computers and their applications April 1961 angl Schmidhuber Jurgen 2015 Deep Learning Scholarpedia 10 11 85 117 Bibcode 2015SchpJ 1032832S doi 10 4249 scholarpedia 32832 angl Dreyfus Stuart E 1 veresnya 1990 Artificial neural networks back propagation and the Kelley Bryson gradient procedure Journal of Guidance Control and Dynamics 13 5 926 928 Bibcode 1990JGCD 13 926D doi 10 2514 3 25422 ISSN 0731 5090 angl Mizutani E Nishio K 2000 On derivation of MLP backpropagation from the Kelley Bryson optimal control gradient formula and its application Proceedings of the IEEE INNS ENNS International Joint Conference on Neural Networks IJCNN 2000 Neural Computing New Challenges and Perspectives for the New Millennium IEEE 167 172 vol 2 doi 10 1109 ijcnn 2000 857892 ISBN 0 7695 0619 4 S2CID 351146 angl 1973 The computational solution of optimal control problems with time lag IEEE Transactions on Automatic Control 18 4 383 385 doi 10 1109 tac 1973 1100330 angl 1982 Applications of advances in nonlinear sensitivity analysis PDF System modeling and optimization Springer s 762 770 PDF originalu za 14 kvitnya 2016 Procitovano 2 lipnya 2017 angl David E Rumelhart Geoffrey E Hinton amp Ronald J Williams Learning representations by back propagating errors 8 bereznya 2021 u Wayback Machine Nature 323 pages 533 536 1986 angl Waibel Alex December 1987 Phoneme Recognition Using Time Delay Neural Networks Meeting of the Institute of Electrical Information and Communication Engineers IEICE Tokyo Japan angl en et al Phoneme Recognition Using Time Delay Neural Networks IEEE Transactions on Acoustics Speech and Signal Processing Volume 37 No 3 pp 328 339 March 1989 angl Zhang Wei 1988 Shift invariant pattern recognition neural network and its optical architecture Proceedings of Annual Conference of the Japan Society of Applied Physics angl Zhang Wei 1990 Parallel distributed processing model with local space invariant interconnections and its optical architecture Applied Optics 29 32 4790 7 Bibcode 1990ApOpt 29 4790Z doi 10 1364 AO 29 004790 PMID 20577468 angl LeCun et al Backpropagation Applied to Handwritten Zip Code Recognition Neural Computation 1 pp 541 551 1989 angl J Weng N Ahuja and T S Huang Cresceptron a self organizing neural network which grows adaptively 21 veresnya 2017 u Wayback Machine Proc International Joint Conference on Neural Networks Baltimore Maryland vol I pp 576 581 June 1992 angl J Weng N Ahuja and T S Huang Learning recognition and segmentation of 3 D objects from 2 D images 21 veresnya 2017 u Wayback Machine Proc 4th International Conf Computer Vision Berlin Germany pp 121 128 May 1993 angl J Weng N Ahuja and T S Huang Learning recognition and segmentation using the Cresceptron 25 sichnya 2021 u Wayback Machine International Journal of Computer Vision vol 25 no 2 pp 105 139 Nov 1997 angl LeCun Yann Leon Bottou Yoshua Bengio Patrick Haffner 1998 Gradient based learning applied to document recognition PDF Proceedings of the IEEE 86 11 2278 2324 CiteSeerX 10 1 1 32 9552 doi 10 1109 5 726791 S2CID 14542261 Procitovano 7 zhovtnya 2016 angl Qian Ning and Terrence J Sejnowski Predicting the secondary structure of globular proteins using neural network models Journal of molecular biology 202 no 4 1988 865 884 angl Bohr Henrik Jakob Bohr Soren Brunak Rodney MJ Cotterill Benny Lautrup Leif Norskov Ole H Olsen and Steffen B Petersen Protein secondary structure and homology by neural networks The a helices in rhodopsin FEBS letters 241 1988 223 228 angl Rost Burkhard and Chris Sander Prediction of protein secondary structure at better than 70 accuracy Journal of molecular biology 232 no 2 1993 584 599 angl Schmidhuber Jurgen 1992 Learning complex extended sequences using the principle of history compression PDF Neural Computation 4 2 234 242 doi 10 1162 neco 1992 4 2 234 S2CID 18271205 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya angl Klejn O M 2023 Metod ta zasobi viyavlennya anomalij v kiberfizichnih sistemah komp yuternogo zoru kvalifikacijna robota magistra ukr Hmelnickij Hmelnickij nacionalnij universitet Schmidhuber Jurgen 1993 Habilitation Thesis PDF a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya angl Schmidhuber Jurgen 1 listopada 1992 Learning to control fast weight memories an alternative to recurrent nets Neural Computation 4 1 131 139 doi 10 1162 neco 1992 4 1 131 S2CID 16683347 angl Schlag Imanol Irie Kazuki Schmidhuber Jurgen 2021 Linear Transformers Are Secretly Fast Weight Programmers ICML 2021 Springer s 9355 9366 angl Choromanski Krzysztof Likhosherstov Valerii Dohan David Song Xingyou Gane Andreea Sarlos Tamas Hawkins Peter Davis Jared Mohiuddin Afroz Kaiser Lukasz Belanger David Colwell Lucy Weller Adrian 2020 Rethinking Attention with Performers arXiv 2009 14794 cs CL angl Schmidhuber Jurgen 1993 Reducing the ratio between learning complexity and number of time varying variables in fully recurrent nets ICANN 1993 Springer s 460 463 angl Vaswani Ashish Shazeer Noam Parmar Niki Uszkoreit Jakob Jones Llion Gomez Aidan N Kaiser Lukasz Polosukhin Illia 12 chervnya 2017 Attention Is All You Need arXiv 1706 03762 cs CL angl Wolf Thomas Debut Lysandre Sanh Victor Chaumond Julien Delangue Clement Moi Anthony Cistac Pierric Rault Tim Louf Remi Funtowicz Morgan Davison Joe Shleifer Sam von Platen Patrick Ma Clara Jernite Yacine Plu Julien Xu Canwen Le Scao Teven Gugger Sylvain Drame Mariama Lhoest Quentin Rush Alexander 2020 Transformers State of the Art Natural Language Processing Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing System Demonstrations s 38 45 doi 10 18653 v1 2020 emnlp demos 6 S2CID 208117506 angl He Cheng 31 grudnya 2021 Transformer in CV Transformer in CV Towards Data Science angl Schmidhuber Jurgen 1991 A possibility for implementing curiosity and boredom in model building neural controllers Proc SAB 1991 MIT Press Bradford Books s 222 227 angl Schmidhuber Jurgen 2010 Formal Theory of Creativity Fun and Intrinsic Motivation 1990 2010 IEEE Transactions on Autonomous Mental Development 2 3 230 247 doi 10 1109 TAMD 2010 2056368 S2CID 234198 angl Schmidhuber Jurgen 2020 Generative Adversarial Networks are Special Cases of Artificial Curiosity 1990 and also Closely Related to Predictability Minimization 1991 Neural Networks angl 127 58 66 arXiv 1906 04493 doi 10 1016 j neunet 2020 04 008 PMID 32334341 S2CID 216056336 angl Goodfellow Ian Pouget Abadie Jean Mirza Mehdi Xu Bing Warde Farley David Ozair Sherjil Courville Aaron Bengio Yoshua 2014 Generative Adversarial Networks PDF Proceedings of the International Conference on Neural Information Processing Systems NIPS 2014 s 2672 2680 PDF originalu za 22 listopada 2019 Procitovano 20 serpnya 2019 angl Prepare Don t Panic Synthetic Media and Deepfakes witness org originalu za 2 grudnya 2020 Procitovano 25 listopada 2020 angl GAN 2 0 NVIDIA s Hyperrealistic Face Generator SyncedReview com 14 grudnya 2018 Procitovano 3 zhovtnya 2019 angl Karras Tero Aila Timo Laine Samuli Lehtinen Jaakko 1 zhovtnya 2017 Progressive Growing of GANs for Improved Quality Stability and Variation arXiv 1710 10196 angl S Hochreiter Untersuchungen zu dynamischen neuronalen Netzen 2015 03 06 u Wayback Machine Diploma thesis Institut f Informatik Technische Univ Munich Advisor J Schmidhuber 1991 nim Hochreiter S ta in 15 sichnya 2001 Gradient flow in recurrent nets the difficulty of learning long term dependencies U Kolen John F Kremer Stefan C red A Field Guide to Dynamical Recurrent Networks John Wiley amp Sons ISBN 978 0 7803 5369 5 angl Hochreiter Sepp Schmidhuber Jurgen 1 listopada 1997 Long Short Term Memory Neural Computation 9 8 1735 1780 doi 10 1162 neco 1997 9 8 1735 ISSN 0899 7667 PMID 9377276 S2CID 1915014 angl Schmidhuber J 2015 Deep Learning in Neural Networks An Overview Neural Networks 61 85 117 arXiv 1404 7828 doi 10 1016 j neunet 2014 09 003 angl Gers Felix Schmidhuber Jurgen Cummins Fred 1999 Learning to forget Continual prediction with LSTM 9th International Conference on Artificial Neural Networks ICANN 99 T 1999 s 850 855 doi 10 1049 cp 19991218 ISBN 0 85296 721 7 angl Srivastava Rupesh Kumar Greff Klaus Schmidhuber Jurgen 2 travnya 2015 Highway Networks arXiv 1505 00387 cs LG angl Srivastava Rupesh K Greff Klaus Schmidhuber Juergen 2015 Training Very Deep Networks Advances in Neural Information Processing Systems Curran Associates Inc 28 2377 2385 angl He Kaiming Zhang Xiangyu Ren Shaoqing Sun Jian 2016 Deep Residual Learning for Image Recognition 2016 IEEE Conference on Computer Vision and Pattern Recognition CVPR Las Vegas NV US IEEE s 770 778 arXiv 1512 03385 doi 10 1109 CVPR 2016 90 ISBN 978 1 4673 8851 1 angl Ismail Mohammed 8 travnya 1989 Analog VLSI Implementation of Neural Systems PDF The Kluwer International Series in Engineering and Computer Science T 80 Norwell MA en doi 10 1007 978 1 4613 1639 8 ISBN 978 1 4613 1639 8 originalu za 6 listopada 2019 Procitovano 24 sichnya 2020 angl 22 September 2015 chapter 4 The Master Algorithm How the Quest for the Ultimate Learning Machine Will Remake Our World Basic Books ISBN 978 0465065707 angl 1986 Information processing in dynamical systems Foundations of harmony theory U D E Rumelhart J L McClelland PDP Research Group red Parallel Distributed Processing Explorations in the Microstructure of Cognition T 1 s 194 281 ISBN 978 0 262 68053 0 angl Ng Andrew Dean Jeff 2012 Building High level Features Using Large Scale Unsupervised Learning arXiv 1112 6209 cs LG angl Ian Goodfellow and Yoshua Bengio and Aaron Courville 2016 Deep Learning MIT Press originalu za 16 kvitnya 2016 Procitovano 1 chervnya 2016 angl Ciresan Dan Claudiu Meier Ueli Gambardella Luca Maria Schmidhuber Jurgen 21 veresnya 2010 Deep Big Simple Neural Nets for Handwritten Digit Recognition Neural Computation 22 12 3207 3220 arXiv 1003 0358 doi 10 1162 neco a 00052 ISSN 0899 7667 PMID 20858131 S2CID 1918673 angl Dominik Scherer Andreas C Muller and Sven Behnke Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition 3 kvitnya 2018 u Wayback Machine In 20th International Conference Artificial Neural Networks ICANN pp 92 101 2010 DOI 10 1007 978 3 642 15825 4 10 angl Interv yu Kurzweil AI 2012 roku 31 serpnya 2018 u Wayback Machine z Yurgenom Shmidhuberom pro visim zmagan vigranih jogo komandoyu Glibokogo navchannya v 2009 2012 rokah angl www kurzweilai net Arhiv originalu za 31 serpnya 2018 Procitovano 16 chervnya 2017 angl Graves Alex Schmidhuber Jurgen 2009 Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks PDF U Koller D Schuurmans Dale Bengio Yoshua Bottou L red Advances in Neural Information Processing Systems 21 NIPS 2008 Neural Information Processing Systems NIPS Foundation s 545 552 ISBN 9781605609492 angl Graves A Liwicki M Fernandez S Bertolami R Bunke H Schmidhuber J May 2009 A Novel Connectionist System for Unconstrained Handwriting Recognition PDF IEEE Transactions on Pattern Analysis and Machine Intelligence 31 5 855 868 CiteSeerX 10 1 1 139 4502 doi 10 1109 tpami 2008 137 ISSN 0162 8828 PMID 19299860 S2CID 14635907 PDF originalu za 2 sichnya 2014 Procitovano 30 lipnya 2014 angl Ciresan Dan Meier U Schmidhuber J June 2012 Multi column deep neural networks for image classification s 3642 3649 arXiv 1202 2745 Bibcode 2012arXiv1202 2745C CiteSeerX 10 1 1 300 3283 doi 10 1109 cvpr 2012 6248110 ISBN 978 1 4673 1228 8 S2CID 2161592 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Proignorovano journal dovidka angl Zell Andreas 2003 chapter 5 2 Simulation neuronaler Netze Simulation of Neural Networks nim vid 1st Addison Wesley ISBN 978 3 89319 554 1 OCLC 249017987 nim Artificial intelligence vid 3rd Addison Wesley Pub Co 1992 ISBN 0 201 53377 4 angl Abbod Maysam F 2007 Application of Artificial Intelligence to the Management of Urological Cancer The Journal of Urology 178 4 1150 1156 doi 10 1016 j juro 2007 05 122 PMID 17698099 angl Dawson Christian W 1998 An artificial neural network approach to rainfall runoff modelling Hydrological Sciences Journal 43 1 47 66 doi 10 1080 02626669809492102 angl www cse unsw edu au Arhiv originalu za 26 serpnya 2018 Procitovano 4 listopada 2009 angl Ciresan Dan Ueli Meier Jonathan Masci Luca M Gambardella Jurgen Schmidhuber 2011 Flexible High Performance Convolutional Neural Networks for Image Classification PDF Proceedings of the Twenty Second International Joint Conference on Artificial Intelligence Volume Volume Two 2 1237 1242 PDF originalu za 5 kvitnya 2022 Procitovano 7 lipnya 2022 angl Zell Andreas 1994 Simulation Neuronaler Netze Simulation of Neural Networks nim vid 1st Addison Wesley s 73 ISBN 3 89319 554 8 Miljanovic Milos February March 2012 Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Prediction PDF Indian Journal of Computer and Engineering 3 1 angl Lau Suki 10 lipnya 2017 A Walkthrough of Convolutional Neural Network Hyperparameter Tuning Medium originalu za 4 lyutogo 2023 Procitovano 23 serpnya 2019 angl Kelleher John D Mac Namee Brian D Arcy Aoife 2020 7 8 Fundamentals of machine learning for predictive data analytics algorithms worked examples and case studies vid 2nd Cambridge MA ISBN 978 0 262 36110 1 OCLC 1162184998 angl Wei Jiakai 26 kvitnya 2019 Forget the Learning Rate Decay Loss arXiv 1905 00094 cs LG angl Li Y Fu Y Li H Zhang S W 1 chervnya 2009 The Improved Training Algorithm of Back Propagation Neural Network with Self adaptive Learning Rate T 1 s 73 76 doi 10 1109 CINC 2009 111 ISBN 978 0 7695 3645 3 S2CID 10557754 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Proignorovano journal dovidka angl Huang Guang Bin Zhu Qin Yu Siew Chee Kheong 2006 Extreme learning machine theory and applications Neurocomputing 70 1 489 501 CiteSeerX 10 1 1 217 3692 doi 10 1016 j neucom 2005 12 126 S2CID 116858 angl Widrow Bernard ta in 2013 The no prop algorithm A new learning algorithm for multilayer neural networks Neural Networks 37 182 188 doi 10 1016 j neunet 2012 09 020 PMID 23140797 angl Ollivier Yann Charpiat Guillaume 2015 Training recurrent networks without backtracking arXiv 1507 07680 cs NE angl Hinton G E 2010 A Practical Guide to Training Restricted Boltzmann Machines Tech Rep UTML TR 2010 003 originalu za 9 travnya 2021 Procitovano 27 chervnya 2017 angl ESANN 2009 Bernard Etienne 2021 Introduction to machine learning angl Champaign s 9 ISBN 978 1579550486 Procitovano 22 bereznya 2023 Sinyeglazov Viktor Chumachenko Olena 2022 Bidyuk P I Shugalej L P red Metodi ta tehnologiyi napivkerovanogo navchannya Kurs lekcij PDF ukr Kiyiv NTUU KPI im Igorya Sikorskogo Duda O M Kunanec N E Macyuk O V Pasichnik V V 21 27 travnya 2018 Metodi analitichnogo opracyuvannya big data PDF Intelektualni sistemi prijnyattya rishen ta problemi obchislyuvalnogo intelektu ukr Zaliznij Port s 159 ISBN 978 617 7573 17 2 Kropivnicka V B Magas D M 30 kvitnya 2023 Napivkerovane mashinne navchannya dlya viyavlennya nespravnostej naftogazoprovodiv Modern engineering and innovative technologies ukr 1 18 33 36 doi 10 30890 2567 5273 2023 26 01 010 Bernard Etienne 2021 Introduction to machine learning angl Champaign s 12 ISBN 978 1579550486 Procitovano 22 bereznya 2023 V yunenko O B Viganyajlo S M 12 travnya 2021 Sokurenko V V Shvec D V Mogilevskij L V Shulga V P Yakovlyev R P Shmelov Yu M red Innovaciyi ta zagalni problemi pidvishennya rivnya kiberbezpeki PDF II Mizhnarodna naukovo praktichna konferenciya Aviaciya promislovist suspilstvo ukr T 1 MVS Ukrayini Harkivskij nacionalnij universitet vnutrishnih sprav Kremenchuckij lotnij koledzh s 169 ISBN 978 966 610 243 3 Bernard Etienne 2021 Introduction to Machine Learning Wolfram Media Inc s 9 ISBN 978 1 579550 48 6 angl Horoshilov S V Redka M O 2019 Intelektualne keruvannya oriyentaciyeyu kosmichnih aparativ iz vikoristannyam navchannya z pidkriplennyam PDF Tehnichna mehanika ukr Dnipro Institut tehnichnoyi mehaniki Nacionalnoyi akademiyi nauk Ukrayini ta Derzhavnogo kosmichnogo agentstva Ukrayini 4 doi 10 15407 itm2019 04 029 Ojha Varun Kumar Abraham Ajith Snasel Vaclav 1 kvitnya 2017 Metaheuristic design of feedforward neural networks A review of two decades of research Engineering Applications of Artificial Intelligence 60 97 116 arXiv 1705 05584 Bibcode 2017arXiv170505584O doi 10 1016 j engappai 2017 01 013 S2CID 27910748 angl Dominic S Das R Whitley D Anderson C July 1991 Genetic reinforcement learning for neural networks IJCNN 91 Seattle International Joint Conference on Neural Networks IJCNN 91 Seattle International Joint Conference on Neural Networks Seattle Washington US IEEE s 71 76 doi 10 1109 IJCNN 1991 155315 ISBN 0 7803 0164 1 angl Hoskins J C Himmelblau D M 1992 Process control via artificial neural networks and reinforcement learning Computers amp Chemical Engineering 16 4 241 251 doi 10 1016 0098 1354 92 80045 B angl Bertsekas D P Tsitsiklis J N 1996 Neuro dynamic programming Athena Scientific s 512 ISBN 978 1 886529 10 6 originalu za 29 chervnya 2017 Procitovano 17 chervnya 2017 angl Secomandi Nicola 2000 Comparing neuro dynamic programming algorithms for the vehicle routing problem with stochastic demands Computers amp Operations Research 27 11 12 1201 1225 CiteSeerX 10 1 1 392 4034 doi 10 1016 S0305 0548 99 00146 X angl de Rigo D Rizzoli A E Soncini Sessa R Weber E Zenesi P 2001 Neuro dynamic programming for the efficient management of reservoir networks Proceedings of MODSIM 2001 International Congress on Modelling and Simulation MODSIM 2001 International Congress on Modelling and Simulation Canberra Australia Modelling and Simulation Society of Australia and New Zealand doi 10 5281 zenodo 7481 ISBN 0 86740 525 2 originalu za 7 August 2013 Procitovano 29 July 2013 angl Damas M Salmeron M Diaz A Ortega J Prieto A Olivares G 2000 Genetic algorithms and neuro dynamic programming application to water supply networks Proceedings of 2000 Congress on Evolutionary Computation 2000 Congress on Evolutionary Computation T 1 La Jolla California US IEEE s 7 14 doi 10 1109 CEC 2000 870269 ISBN 0 7803 6375 2 angl Deng Geng Ferris M C 2008 Neuro dynamic programming for fractionated radiotherapy planning Springer Optimization and Its Applications T 12 s 47 70 CiteSeerX 10 1 1 137 8288 doi 10 1007 978 0 387 73299 2 3 ISBN 978 0 387 73298 5 angl Bozinovski S 1982 A self learning system using secondary reinforcement In R Trappl ed Cybernetics and Systems Research Proceedings of the Sixth European Meeting on Cybernetics and Systems Research North Holland pp 397 402 ISBN 978 0 444 86488 8 angl Bozinovski S 2014 Modeling mechanisms of cognition emotion interaction in artificial neural networks since 1981 23 bereznya 2019 u Wayback Machine Procedia Computer Science p 255 263 angl Bozinovski Stevo Bozinovska Liljana 2001 Self learning agents A connectionist theory of emotion based on crossbar value judgment Cybernetics and Systems 32 6 637 667 doi 10 1080 01969720118145 S2CID 8944741 angl Welcoming the Era of Deep Neuroevolution Uber Blog 18 grudnya 2017 Procitovano 15 kvitnya 2023 angl Artificial intelligence can evolve to solve problems Science AAAS 10 sichnya 2018 originalu za 9 grudnya 2021 Procitovano 7 lyutogo 2018 angl Turchetti Claudio 2004 Stochastic Models of Neural Networks Frontiers in artificial intelligence and applications Knowledge based intelligent engineering systems t 102 IOS Press ISBN 9781586033880 angl Jospin Laurent Valentin Laga Hamid Boussaid Farid Buntine Wray Bennamoun Mohammed 2022 Hands On Bayesian Neural Networks A Tutorial for Deep Learning Users IEEE Computational Intelligence Magazine 17 2 29 48 arXiv 2007 06823 doi 10 1109 mci 2022 3155327 ISSN 1556 603X S2CID 220514248 originalu za 4 lyutogo 2023 Procitovano 19 listopada 2022 angl de Rigo D Castelletti A Rizzoli A E Soncini Sessa R Weber E January 2005 A selective improvement technique for fastening Neuro Dynamic Programming in Water Resources Network Management U Pavel Zitek red Proceedings of the 16th IFAC World Congress IFAC PapersOnLine 16th IFAC World Congress T 16 Prague Czech Republic IFAC s 7 12 doi 10 3182 20050703 6 CZ 1902 02172 11311 255236 ISBN 978 3 902661 75 3 originalu za 26 kvitnya 2012 Procitovano 30 grudnya 2011 angl Ferreira C 2006 Designing Neural Networks Using Gene Expression Programming U A Abraham B de Baets M Koppen B Nickolay red Applied Soft Computing Technologies The Challenge of Complexity PDF Springer Verlag s 517 536 PDF originalu za 19 grudnya 2013 Procitovano 8 zhovtnya 2012 angl Da Y Xiurun G July 2005 U T Villmann red New Aspects in Neurocomputing 11th European Symposium on Artificial Neural Networks T 63 Elsevier s 527 533 doi 10 1016 j neucom 2004 07 002 Arhiv originalu za 25 kvitnya 2012 Procitovano 30 grudnya 2011 angl Wu J Chen E May 2009 U Wang H Shen Y Huang T Zeng Z red 6th International Symposium on Neural Networks ISNN 2009 Lecture Notes in Computer Science T 5553 Springer s 49 58 doi 10 1007 978 3 642 01513 7 6 ISBN 978 3 642 01215 0 Arhiv originalu za 31 grudnya 2014 Procitovano 1 sichnya 2012 angl Ting Qin Zonghai Chen Haitao Zhang Sifu Li Wei Xiang Ming Li 2004 A learning algorithm of CMAC based on RLS PDF Neural Processing Letters 19 1 49 61 doi 10 1023 B NEPL 0000016847 18175 60 S2CID 6233899 PDF originalu za 14 kvitnya 2021 Procitovano 30 sichnya 2019 angl Ting Qin Haitao Zhang Zonghai Chen Wei Xiang 2005 Continuous CMAC QRLS and its systolic array PDF Neural Processing Letters 22 1 1 16 doi 10 1007 s11063 004 2694 0 S2CID 16095286 PDF originalu za 18 listopada 2018 Procitovano 30 sichnya 2019 angl LeCun Y Boser B Denker JS Henderson D Howard RE Hubbard W Jackel LD 1989 Backpropagation Applied to Handwritten Zip Code Recognition Neural Computation 1 4 541 551 doi 10 1162 neco 1989 1 4 541 S2CID 41312633 angl Yann LeCun 2016 Slides on Deep Learning Online 23 kvitnya 2016 u Wayback Machine angl Schmidhuber Jurgen 1 listopada 1997 Long Short Term Memory Neural Computation 9 8 1735 1780 doi 10 1162 neco 1997 9 8 1735 ISSN 0899 7667 PMID 9377276 S2CID 1915014 angl Sak Hasim Senior Andrew Beaufays Francoise 2014 PDF Arhiv originalu PDF za 24 kvitnya 2018 angl Li Xiangang Wu Xihong 15 zhovtnya 2014 Constructing Long Short Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition arXiv 1410 4281 cs CL angl Fan Y Qian Y Xie F Soong F K 2014 TTS synthesis with bidirectional LSTM based Recurrent Neural Networks Proceedings of the Annual Conference of the International Speech Communication Association Interspeech 1964 1968 Procitovano 13 chervnya 2017 angl Zen Heiga Sak Hasim 2015 Unidirectional Long Short Term Memory Recurrent Neural Network with Recurrent Output Layer for Low Latency Speech Synthesis PDF Google com ICASSP s 4470 4474 PDF originalu za 9 travnya 2021 Procitovano 27 chervnya 2017 angl Fan Bo Wang Lijuan Soong Frank K Xie Lei 2015 Photo Real Talking Head with Deep Bidirectional LSTM PDF Proceedings of ICASSP PDF originalu za 1 listopada 2017 Procitovano 27 chervnya 2017 angl Hubert Thomas Schrittwieser Julian Antonoglou Ioannis Lai Matthew Guez Arthur Lanctot Marc Sifre Laurent Graepel Thore Lillicrap Timothy Simonyan Karen 5 grudnya 2017 Mastering Chess and Shogi by Self Play with a General Reinforcement Learning Algorithm arXiv 1712 01815 cs AI angl Zoph Barret Le Quoc V 4 listopada 2016 Neural Architecture Search with Reinforcement Learning arXiv 1611 01578 cs LG angl Haifeng Jin Qingquan Song Xia Hu 2019 Auto keras An efficient neural architecture search system Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery amp Data Mining ACM arXiv 1806 10282 originalu za 21 serpnya 2019 Procitovano 21 serpnya 2019 cherez autokeras com angl Claesen Marc De Moor Bart 2015 Hyperparameter Search in Machine Learning arXiv 1502 02127 cs LG Bibcode 2015arXiv150202127C angl Probst Philipp Boulesteix Anne Laure Bischl Bernd 26 lyutogo 2018 Tunability Importance of Hyperparameters of Machine Learning Algorithms J Mach Learn Res 20 53 1 53 32 S2CID 88515435 Procitovano 18 bereznya 2023 angl Zou Jinming Han Yi So Sung Sau 2009 Artificial Neural Networks Methods and Applications Methods in Molecular Biology T 458 vid Livingstone David J Totowa NJ Humana Press s 15 23 doi 10 1007 978 1 60327 101 1 2 ISBN 978 1 60327 101 1 PMID 19065803 Procitovano 18 bereznya 2023 angl Esch Robin 1990 Handbook of Applied Mathematics Selected Results and Methods vid Springer US Boston MA Springer US s 928 987 doi 10 1007 978 1 4684 1423 3 17 ISBN 978 1 4684 1423 3 Procitovano 18 bereznya 2023 angl Sarstedt Marko Moo Erik 2019 Regression Analysis A Concise Guide to Market Research Springer Texts in Business and Economics Springer Berlin Heidelberg s 209 256 doi 10 1007 978 3 662 56707 4 7 ISBN 978 3 662 56706 7 S2CID 240396965 angl Tian Jie Tan Yin Sun Chaoli Zeng Jianchao Jin Yaochu December 2016 A self adaptive similarity based fitness approximation for evolutionary optimization 2016 IEEE Symposium Series on Computational Intelligence SSCI 1 8 doi 10 1109 SSCI 2016 7850209 ISBN 978 1 5090 4240 1 S2CID 14948018 angl Turek Fred D March 2007 Introduction to Neural Net Machine Vision Vision Systems Design 12 3 originalu za 16 travnya 2013 Procitovano 5 bereznya 2013 angl Alaloul Wesam Salah Qureshi Abdul Hannan 2019 Data Processing Using Artificial Neural Networks Dynamic Data Assimilation Beating the Uncertainties doi 10 5772 intechopen 91935 ISBN 978 1 83968 083 0 S2CID 219735060 angl Pal Madhab Roy Rajib Basu Joyanta Bepari Milton S 2013 Blind source separation A review and analysis 2013 International Conference Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation O COCOSDA CASLRE IEEE s 1 5 doi 10 1109 ICSDA 2013 6709849 ISBN 978 1 4799 2378 6 S2CID 37566823 angl Zissis Dimitrios October 2015 A cloud based architecture capable of perceiving and predicting multiple vessel behaviour Applied Soft Computing 35 652 661 doi 10 1016 j asoc 2015 07 002 originalu za 26 lipnya 2020 Procitovano 18 lipnya 2019 angl Roman M Balabin Ekaterina I Lomakina 2009 Neural network approach to quantum chemistry data Accurate prediction of density functional theory energies J Chem Phys 131 7 074104 Bibcode 2009JChPh 131g4104B doi 10 1063 1 3206326 PMID 19708729 angl Silver David ta in 2016 Mastering the game of Go with deep neural networks and tree search PDF Nature 529 7587 484 489 Bibcode 2016Natur 529 484S doi 10 1038 nature16961 PMID 26819042 S2CID 515925 PDF originalu za 23 listopada 2018 Procitovano 31 sichnya 2019 angl Sengupta Nandini Sahidullah Md Saha Goutam August 2016 Lung sound classification using cepstral based statistical features Computers in Biology and Medicine 75 1 118 129 doi 10 1016 j compbiomed 2016 05 013 PMID 27286184 angl Choy Christopher B et al 3d r2n2 A unified approach for single and multi view 3d object reconstruction 26 lipnya 2020 u Wayback Machine European conference on computer vision Springer Cham 2016 angl Gessler Josef August 2021 Sensor for food analysis applying impedance spectroscopy and artificial neural networks RiuNet UPV 1 8 12 originalu za 21 zhovtnya 2021 Procitovano 21 zhovtnya 2021 angl Maitra D S Bhattacharya U Parui S K August 2015 CNN based common approach to handwritten character recognition of multiple scripts 2015 13th International Conference on Document Analysis and Recognition ICDAR 1021 1025 doi 10 1109 ICDAR 2015 7333916 ISBN 978 1 4799 1805 8 S2CID 25739012 angl French Jordan 2016 The time traveller s CAPM Investment Analysts Journal 46 2 81 96 doi 10 1080 10293523 2016 1255469 S2CID 157962452 angl Schechner Sam 15 chervnya 2017 Facebook Boosts A I to Block Terrorist Propaganda The Wall Street Journal ISSN 0099 9660 Procitovano 16 chervnya 2017 angl Ganesan N 2010 Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data International Journal of Computer Applications 1 26 81 97 Bibcode 2010IJCA 1z 81G doi 10 5120 476 783 angl Bottaci Leonardo 1997 PDF Lancet The Lancet 350 9076 469 72 doi 10 1016 S0140 6736 96 11196 X PMID 9274582 S2CID 18182063 Arhiv originalu PDF za 23 listopada 2018 Procitovano 2 travnya 2012 angl Alizadeh Elaheh Lyons Samanthe M Castle Jordan M Prasad Ashok 2016 Measuring systematic changes in invasive cancer cell shape using Zernike moments Integrative Biology 8 11 1183 1193 doi 10 1039 C6IB00100A PMID 27735002 angl Lyons Samanthe 2016 Changes in cell shape are correlated with metastatic potential in murine Biology Open 5 3 289 299 doi 10 1242 bio 013409 PMC 4810736 PMID 26873952 angl Nabian Mohammad Amin Meidani Hadi 28 serpnya 2017 Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks Computer Aided Civil and Infrastructure Engineering 33 6 443 458 arXiv 1708 08551 Bibcode 2017arXiv170808551N doi 10 1111 mice 12359 S2CID 36661983 angl Nabian Mohammad Amin Meidani Hadi 2018 Accelerating Stochastic Assessment of Post Earthquake Transportation Network Connectivity via Machine Learning Based Surrogates Transportation Research Board 97th Annual Meeting originalu za 9 bereznya 2018 Procitovano 14 bereznya 2018 angl Diaz E Brotons V Tomas R September 2018 Use of artificial neural networks to predict 3 D elastic settlement of foundations on soils with inclined bedrock Soils and Foundations 58 6 1414 1422 Bibcode 2018SoFou 58 1414D doi 10 1016 j sandf 2018 08 001 10045 81208 ISSN 0038 0806 angl Tayebiyan A Mohammad T A Ghazali A H Mashohor S Artificial Neural Network for Modelling Rainfall Runoff Pertanika Journal of Science amp Technology 24 2 319 330 angl Govindaraju Rao S 1 kvitnya 2000 Artificial Neural Networks in Hydrology I Preliminary Concepts Journal of Hydrologic Engineering 5 2 115 123 doi 10 1061 ASCE 1084 0699 2000 5 2 115 angl Govindaraju Rao S 1 kvitnya 2000 Artificial Neural Networks in Hydrology II Hydrologic Applications Journal of Hydrologic Engineering 5 2 124 137 doi 10 1061 ASCE 1084 0699 2000 5 2 124 angl Peres D J Iuppa C Cavallaro L Cancelliere A Foti E 1 zhovtnya 2015 Significant wave height record extension by neural networks and reanalysis wind data Ocean Modelling 94 128 140 Bibcode 2015OcMod 94 128P doi 10 1016 j ocemod 2015 08 002 angl Dwarakish G S Rakshith Shetty Natesan Usha 2013 Review on Applications of Neural Network in Coastal Engineering Artificial Intelligent Systems and Machine Learning 5 7 324 331 originalu za 15 serpnya 2017 Procitovano 5 lipnya 2017 angl Ermini Leonardo Catani Filippo Casagli Nicola 1 bereznya 2005 Artificial Neural Networks applied to landslide susceptibility assessment Geomorphology Geomorphological hazard and human impact in mountain environments 66 1 327 343 Bibcode 2005Geomo 66 327E doi 10 1016 j geomorph 2004 09 025 angl Nix R Zhang J May 2017 Classification of Android apps and malware using deep neural networks 2017 International Joint Conference on Neural Networks IJCNN 1871 1878 doi 10 1109 IJCNN 2017 7966078 ISBN 978 1 5090 6182 2 S2CID 8838479 angl The systems and networking group at UCSD Arhiv originalu za 14 lipnya 2019 Procitovano 15 lyutogo 2019 angl Homayoun Sajad Ahmadzadeh Marzieh Hashemi Sattar Dehghantanha Ali Khayami Raouf 2018 Dehghantanha Ali Conti Mauro Dargahi Tooska red BoTShark A Deep Learning Approach for Botnet Traffic Detection Cyber Threat Intelligence Advances in Information Security Springer International Publishing s 137 153 doi 10 1007 978 3 319 73951 9 7 ISBN 978 3 319 73951 9 angl Ghosh ta Reilly January 1994 Credit card fraud detection with a neural network 1994 Proceedings of the Twenty Seventh Hawaii International Conference on System Sciences 3 621 630 doi 10 1109 HICSS 1994 323314 ISBN 978 0 8186 5090 1 S2CID 13260377 angl Ananthaswamy Anil 19 kvitnya 2021 Latest Neural Nets Solve World s Hardest Equations Faster Than Ever Before Quanta Magazine Procitovano 12 travnya 2021 angl AI has cracked a key mathematical puzzle for understanding our world MIT Technology Review Procitovano 19 listopada 2020 angl Caltech Open Sources AI for Solving Partial Differential Equations InfoQ originalu za 25 sichnya 2021 Procitovano 20 sichnya 2021 angl Nagy Alexandra 28 chervnya 2019 Variational Quantum Monte Carlo Method with a Neural Network Ansatz for Open Quantum Systems Physical Review Letters 122 25 250501 arXiv 1902 09483 Bibcode 2019PhRvL 122y0501N doi 10 1103 PhysRevLett 122 250501 PMID 31347886 S2CID 119074378 angl Yoshioka Nobuyuki Hamazaki Ryusuke 28 chervnya 2019 Constructing neural stationary states for open quantum many body systems Physical Review B 99 21 214306 arXiv 1902 07006 Bibcode 2019PhRvB 99u4306Y doi 10 1103 PhysRevB 99 214306 S2CID 119470636 angl Hartmann Michael J Carleo Giuseppe 28 chervnya 2019 Neural Network Approach to Dissipative Quantum Many Body Dynamics Physical Review Letters 122 25 250502 arXiv 1902 05131 Bibcode 2019PhRvL 122y0502H doi 10 1103 PhysRevLett 122 250502 PMID 31347862 S2CID 119357494 angl Vicentini Filippo Biella Alberto Regnault Nicolas Ciuti Cristiano 28 chervnya 2019 Variational Neural Network Ansatz for Steady States in Open Quantum Systems Physical Review Letters 122 25 250503 arXiv 1902 10104 Bibcode 2019PhRvL 122y0503V doi 10 1103 PhysRevLett 122 250503 PMID 31347877 S2CID 119504484 angl Forrest MD April 2015 Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs gt 400 times faster BMC Neuroscience 16 27 27 doi 10 1186 s12868 015 0162 6 PMC 4417229 PMID 25928094 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya angl Siegelmann H T Sontag E D 1991 Turing computability with neural nets PDF Appl Math Lett 4 6 77 80 doi 10 1016 0893 9659 91 90080 F angl Bains Sunny 3 listopada 1998 Analog computer trumps Turing model EE Times Procitovano 11 travnya 2023 angl Balcazar Jose July 1997 Computational Power of Neural Networks A Kolmogorov Complexity Characterization IEEE Transactions on Information Theory 43 4 1175 1183 CiteSeerX 10 1 1 411 7782 doi 10 1109 18 605580 angl Nadrigajlo T Zh Molchanova K A 2011 Analiz nejronnih algoritmiv PDF Mat mod 2 25 5 6 50 51 Demchuk O S 2019 Robocha programa navchalnoyi disciplini Nejronni merezhi ta nejro nechitki tehnologiyi PDF Rivne NUVGP Procitovano 4 chervnya 2023 2003 Information Theory Inference and Learning Algorithms PDF Cambridge University Press ISBN 978 0 521 64298 9 PDF originalu za 19 October 2016 Procitovano 11 June 2016 angl Cover Thomas 1965 Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition PDF IEEE Transactions on Electronic Computers IEEE EC 14 3 326 334 doi 10 1109 PGEC 1965 264137 PDF originalu za 5 bereznya 2016 Procitovano 10 bereznya 2020 angl 2019 Reproducibility and Experimental Design for Machine Learning on Audio and Multimedia Data MM 19 Proceedings of the 27th ACM International Conference on Multimedia ACM 2709 2710 doi 10 1145 3343031 3350545 ISBN 978 1 4503 6889 6 S2CID 204837170 angl The Tensorflow Meter Arhiv originalu za 18 April 2022 Procitovano 10 March 2020 angl Lee Jaehoon Xiao Lechao Schoenholz Samuel S Bahri Yasaman Novak Roman Sohl Dickstein Jascha Pennington Jeffrey 2020 Wide neural networks of any depth evolve as linear models under gradient descent Journal of Statistical Mechanics Theory and Experiment 2020 12 124002 arXiv 1902 06720 Bibcode 2020JSMTE2020l4002L doi 10 1088 1742 5468 abc62b S2CID 62841516 angl Arthur Jacot Franck Gabriel Clement Hongler 2018 Neural Tangent Kernel Convergence and Generalization in Neural Networks PDF 32nd Conference on Neural Information Processing Systems NeurIPS 2018 Montreal Canada PDF originalu za 22 chervnya 2022 Procitovano 4 chervnya 2022 angl Xu ZJ Zhang Y Xiao Y 2019 Training Behavior of Deep Neural Network in Frequency Domain U Gedeon T Wong K Lee M red Neural Information Processing ICONIP 2019 Lecture Notes in Computer Science T 11953 Springer Cham s 264 274 arXiv 1807 01251 doi 10 1007 978 3 030 36708 4 22 ISBN 978 3 030 36707 7 S2CID 49562099 angl Nasim Rahaman Aristide Baratin Devansh Arpit Felix Draxler Min Lin Fred Hamprecht Yoshua Bengio Aaron Courville 2019 On the Spectral Bias of Neural Networks PDF Proceedings of the 36th International Conference on Machine Learning 97 5301 5310 arXiv 1806 08734 PDF originalu za 22 zhovtnya 2022 Procitovano 4 chervnya 2022 angl Zhi Qin John Xu Yaoyu Zhang Tao Luo Yanyang Xiao Zheng Ma 2020 Frequency Principle Fourier Analysis Sheds Light on Deep Neural Networks Communications in Computational Physics 28 5 1746 1767 arXiv 1901 06523 Bibcode 2020CCoPh 28 1746X