Існує багато типів штучних нейронних мереж (ШНМ, англ. artificial neural networks, ANN).
Штучні нейронні мережі — це [en], натхнені біологічними нейронними мережами, й які використовують, щоби наближувати функції, зазвичай невідомі. Зокрема, їх надихає поведінка нейронів та електричних сигналів, які вони передають між входом (наприклад, від очей або нервових закінчень у руці), обробкою, та виходом із мозку (наприклад, реакцією на світло, дотик або тепло). Спосіб забезпечення нейронами семантичного зв'язку є областю поточних досліджень. Більшість штучних нейронних мереж лише дещо схожі на свої складніші біологічні аналоги, але вони дуже ефективні у виконанні поставлених завдань (наприклад, класифікування чи сегментування).
Деякі штучні нейронні мережі є адаптивними системами, і їх використовують, наприклад, для [en] та середовищ, які постійно змінюються.
Нейронні мережі можуть бути апаратними (нейрони подано фізичними складовими) та [en] (комп'ютерні моделі), й можуть використовувати різноманітні топології та алгоритми навчання.
Прямого поширення
Нейронна мережа прямого поширення (англ. feedforward neural network) була першим і найпростішим типом. У цій мережі інформація рухається лише від шару входу безпосередньо крізь будь-які приховані шари до шару виходу, без циклів/петель. Мережі прямого поширення можливо будувати за допомогою різних типів вузлів, таких як бінарні нейрони Маккаллоха — Піттса, найпростішим з яких є перцептрон. Неперервні нейрони, часто з сигмоїдною передавальною функцією, використовують у контексті зворотного поширення.
Метод групового урахування аргументів
Метод групового урахування аргументів (МГУА, англ. Group Method of Data Handling, GMDH) має повністю автоматичну структурну та параметричну оптимізацію моделі. Передавальними функціями вузлів є поліноми Колмогорова — Габора, які допускають додавання та множення. Він використовує глибокий багатошаровий перцептрон із вісьмома шарами. Це мережа керованого навчання, яка зростає шар за шаром, де кожен шар тренується за допомогою регресійного аналізу. Непотрібні елементи виявляються за допомогою затверджувального набору й відсікаються за допомогою регуляризації. Розмір та глибина отримуваної мережі залежать від поставленого завдання.
Автокодувальник
Автокодувальник (англ. autoencoder), автоасоціатор, або мережа діаболо схожий на багатошаровий перцептрон (БШП, англ. MLP) — із шаром входу, шаром виходу й одним або декількома прихованими шарами, що їх з'єднують. Проте шар виходу має таку ж кількість вузлів, що й шар входу. Його призначення — відбудовувати власні дані входу (замість видавати цільове значення). Тож автокодувальники — моделі некерованого навчання. Автокодувальник використовують для некерованого навчання ефективних кодувань, зазвичай з метою зниження розмірності та для навчання породжувальних моделей даних.
Імовірнісний
Імовірнісна нейронна мережа (ІНМ, англ. PNN) — це чотирирівнева нейронна мережа прямого поширення. Шари: входу, приховані образів та підсумовування, та виходу. В алгоритмі ІНМ батьківську функцію густини ймовірності (ФГІ, англ. PDF) кожного класу наближують вікном Парцена та непараметричною функцією. Потім, використовуючи ФГІ кожного класу, оцінюють класову ймовірність нового входу й використовують правило Баєса, щоби віднести його до класу з найвищою апостеріорною ймовірністю. Її отримали з баєсової мережі та статистичного алгоритму під назвою [en]. Її використовують для класифікування та розпізнавання образів.
Часова затримка
Нейронна мережа з часовою затримкою (англ. time delay neural network, TDNN) — це архітектура прямого поширення для послідовних даних, яка розпізнає ознаки незалежно від положення в послідовності. Щоби досягти інваріантності щодо зсуву в часі, до даних входу додають затримки, щоби кілька точок даних (точок у часі) аналізувалися разом.
Зазвичай вона є частиною більшої системи розпізнавання образів. Її втілювали за допомогою мережі перцептрона, вагові коефіцієнти з'єднань якої було треновано зворотним поширенням (керованим навчанням).
Згорткова
Згорткова нейронна мережа (ЗНМ, англ. CNN, ConvNet, або зсувоінваріанта чи просторовоінваріантна, англ. shift invariant, space invariant) — це клас глибоких мереж, складених з одного або кількох згорткових шарів, із повноз'єднаними шарами (що відповідають шарам типових ШНМ) нагорі. Вона використовує зв'язані ваги та шари агрегування. Зокрема, максимізаційного агрегування (англ. max-pooling). Її часто структурують за допомогою згорткової архітектури Фукусіми. Вони є видозмінами багатошарових перцептронів, які використовують мінімальну попередню обробку. Ця архітектура дозволяє ЗНМ використовувати переваги двовимірної структури даних входу.
Її схема з'єднання вузлів натхнена будовою зорової кори. Вузли реагують на стимули в обмеженій області простору, відомій як рецептивне поле. Рецептивні поля частково перекриваються, накриваючи все поле зору. Відгук вузла можливо наблизити математично операцією згортки.
ЗНМ підходять для обробки візуальних та інших двовимірних даних. Вони показали чудові результати у застосуваннях як до зображень, так і до мовлення. Їх можливо тренувати стандартним зворотним поширенням. ЗНМ тренувати легше, ніж інші звичайні глибокі нейронні мережі прямого поширення, і вони мають набагато менше параметрів для оцінювання.
Капсульні нейронні мережі (англ. CapsNet) додають до ЗНМ структури, звані капсулами (англ. capsules), й перевикористовують дані виходу кількох капсул для формування стабільніших (щодо різних збурень) подань.
До прикладів застосувань у комп'ютерному зорі належать [en] і [en]. Вони мають широке застосування в розпізнаванні зображень і відео, рекомендаційних системах та обробці природної мови.
Глибока складальна мережа
Глибока складальна мережа (ГСМ, англ. deep stacking network, DSN) (глибока опукла мережа, англ. deep convex network) ґрунтується на ієрархії блоків спрощених нейромережних модулів. Її запропонували 2011 року Ден та Ю. Вона формулює навчання як задачу опуклої оптимізації з розв'язком замкненого вигляду, підкреслюючи подібність цього механізму до складального узагальнювання. Кожен блок ГСМ — це простий модуль, який сам по собі легко натренувати керованим чином без зворотного поширення для цілих блоків.
Кожен блок складається зі спрощеного багатошарового перцептрона (БШП) з єдиним прихованим шаром. Прихований шар h має логістичні сигмоїдні вузли, а шар виходу — лінійні. З'єднання між цими шарами подано ваговою матрицею U; з'єднання входу з прихованим шаром мають вагову матрицю W. Цільові вектори t утворюють стовпці матриці T, а вектори даних входу x утворюють стовпці матриці X. Матрицею прихованих вузлів є . Модулі тренують по черзі, тож ваги нижчого шару W на кожному етапі відомі. Функція виконує поелементну логістичну сигмоїдну дію. Кожен із блоків оцінює один і той же клас кінцевих міток y, і його оцінка поєднується з первинним входом X для утворення розширеного входу для наступного блоку. Таким чином, вхід першого блоку містить лише первинні дані, тоді як до входів наступних блоків додаються також і виходи попередніх блоків. Тоді навчання вагової матриці U вищого шару за заданих інших ваг у мережі можливо сформулювати як задачу опуклої оптимізації:
що має розв'язок замкненого вигляду.
На відміну від інших глибоких архітектур, таких як ГМП, метою є не виявляння перетвореного подання ознак. Структура ієрархії такого типу архітектури робить паралельне навчання прямолінійним, як задача оптимізації в пакетному режимі. У суто розрізнювальних завданнях ГСМ перевершують звичайні ГМП.
Тензорні глибокі складальні мережі
Ця архітектура — розширення ГСМ. Вона пропонує два важливі вдосконалення: вона використовує інформацію вищого порядку з коваріаційних статистик, і вона перетворює неопуклу задачу нижчого шару на опуклу підзадачу вищого шару. ТГСМ використовують коваріаційну статистику в білінійному відображенні з кожного з двох окремих наборів прихованих вузлів одного й того ж шару до передбачень за допомогою тензора третього порядку.
В той час як розпаралелювання й масштабованість у звичайних ГНМ не розглядають серйозно, все навчання для ГСМ і ТГСМ здійснюється в пакетному режимі, що уможливлює розпаралелювання. Розпаралелювання дозволяє масштабувати цю конструкцію на більші (глибші) архітектури та набори даних.
Ця базова архітектура підходить для різноманітних завдань, таких як класифікування та регресія.
Регуляторний зворотній зв'язок
Мережі з регуляторним зворотним зв'язком (англ. regulatory feedback networks) мали початок як модель для пояснення мозкових явищ, виявляних під час розпізнавання, включно [en] в усій мережі та [en], універсальними при сенсорному розпізнаванні. Механізм для виконання оптимізації під час розпізнавання створюють за допомогою гальмівних з'єднань зворотного зв'язку з тими же входами, які їх активують. Це зменшує вимоги під час навчання та дозволяє полегшити навчання та уточнення, залишаючи можливість виконувати складне розпізнавання.
Мережа з регуляторним зворотним зв'язком здійснює висновування з використанням негативного зворотного зв'язку. Зворотній зв'язок використовується для пошуку оптимального збудження вузлів. Це найбільше схоже на [en], але відрізняється від k-найближчих сусідів тим, що математично емулює мережі прямого поширення.
Радіальні базисні функції (РБФ)
Радіальні базисні функції (англ. radial basis functions) — це функції, які мають критерій відстані відносно якогось центру. Радіальні базисні функції застосовували як заміну сигмоїдної передавальної характеристики прихованого шару в багатошарових перцептронах. Радіальнобазисні мережі (РБМ) мають два шари: на першому дані входу відображувано на кожну РБФ у «прихованому» шарі. Як РБФ зазвичай обирають гауссіани. У задачах регресії шар виходу це лінійна комбінація значень прихованого шару, що подає середній передбачуваний результат. Інтерпретація цього значення шару виходу така же, як і регресійна модель у статистиці. У задачах класифікування шар виходу це зазвичай сигмоїдна функція лінійної комбінації значень прихованого шару, що подає апостеріорну ймовірність. Продуктивність в обох випадках часто покращують за допомогою [en] методик, відомих у класичній статистиці як гребенева регресія. Це відповідає апріорному переконанню в малих значеннях параметрів (а відтак і гладких функціях виходу) в баєсовій системі.
Радіальнобазисні мережі мають перевагу уникання локальних мінімумів так само, як і багатошарові перцептрони. Це пов'язано з тим, що єдині параметри, які підлаштовуються в процесі навчання, це лінійне відображення з прихованого шару до шару виходу. Лінійність гарантує, що поверхня похибки квадратична, і відтак має єдиний мінімум, який легко знаходити. У задачах регресії його можливо знаходити за одну матричну операцію. У задачах класифікування із фіксованою нелінійністю, яку вносить сигмоїдна функція виходу, найефективніше впоруватися за допомогою [en].
РБМ мають недолік вимагання доброго покриття простору входу радіальними базисними функціями. Центри РБФ визначають із прив'язкою до розподілу даних входу, але без прив'язки до завдання передбачування. Як результат, ресурси подання можуть марнуватися на ділянках простору входу, що не мають відношення до цього завдання. Поширене розв'язання — пов'язати кожну точку даних з її власним центром, хоча це може розширювати лінійну систему для розв'язування на кінцевому шарі, й потребувати стискальних методик задля уникнення перенавчання.
Пов'язування кожних вхідних даних із РБФ природним чином призводить до таких ядрових методів як опорновекторні машини (ОВМ) та гауссові процеси (РБФ — [en]). Усі три підходи використовують нелінійну ядрову функцію для проєціювання даних входу до простору, в якому задачу навчання можливо розв'язати за допомогою лінійної моделі. Подібно до гауссових процесів, і на відміну від ОВМ, радіальнобазисні мережі зазвичай тренують за системою максимальної правдоподібності, максимізуючи ймовірність (мінімізуючи похибку). ОВМ уникають перенавчання, максимізуючи натомість розділення. ОВМ перевершують РБМ у більшості застосувань класифікування. У застосуваннях регресії вони можуть бути конкурентоспроможними, коли розмірність простору входу відносно мала.
Як працюють РБМ
Радіальнобазисні нейронні мережі концептуально подібні моделям k-найближчих сусідів (k-НС). Основна ідея полягає в подібності виходів для подібних входів.
Припустімо, що кожен випадок у тренувальному наборі має дві змінні—передбачувачі, x та y, а цільова змінна має дві категорії, позитивну та негативну. Як обчислюється цільова змінна за заданого нового випадку з передбачувальними значеннями x = 6, y = 5,1?
Класифікація найближчих сусідів, виконувана для цього прикладу, залежить від того, скільки сусідніх точок розглядають. Якщо використовують 1-НС, і найближча точка негативна, то нову точку слід класифікувати як негативну. Іншим чином, якщо використовують класифікацію 9-НС і враховують найближчі 9 точок, то вплив навколишніх 8 позитивних точок може переважити найближчу 9-ту (негативну) точку.
РБМ розташовує нейрони в просторі, описуваному змінними—передбачувачами (x, y у цьому прикладі). Цей простір має стільки вимірів, скільки змінних—передбачувачів. Евклідову відстань обчислюють від нової точки до центру кожного нейрона, а радіальну базисну функцію (РБФ, також звану ядровою функцією) застосовують до відстані для обчислення ваги (впливу) для кожного нейрона. Радіальну базисну функцію називають так тому, що аргументом цією функції є радіусна відстань.
- Вага = РБФ (відстань)
Радіальна базисна функція
Значення для нової точки визначають підсумовуванням значень виходу функцій РБФ, помножених на ваги, обчислені для кожного нейрона.
Радіальна базисна функція для нейрона має центр і радіус (також званий розкидом, англ. spread). Радіус може бути різним для кожного нейрона, а в РБМ, породжуваних DTREG, радіус може відрізнятися й у кожному вимірі.
За більшого розкиду віддалені від точки нейрони мають більший вплив.
Архітектура
РБМ мають три шари:
- Шар входу: у шарі входу по одному нейрону для кожної змінної—передбачувача. У випадку категорійних змінних використовують N-1 нейронів, де N — кількість категорій. Нейрони входу стандартизують діапазони значень відніманням медіани та діленням на міжквартильний розмах. Потім нейрони входу передають значення кожному з нейронів прихованого шару.
- Прихований шар: цей шар має змінну кількість нейронів (визначувану процесом тренування). Кожен нейрон складається з радіальної базисної функції з центром у точці з такою кількістю вимірів, скільки змінних—передбачувачів. Розкид (радіус) РБФ може відрізнятися для кожного виміру. Центри та розкиди визначає тренування. Коли подано вектор x значень входу з шару входу, прихований нейрон обчислює евклідову відстань цього випробувального випадку від своєї центральної точки, а потім застосовує ядрову РБФ до цієї відстані, використовуючи значення розкиду. Отримане значення передається на рівень підсумовування.
- Рівень підсумовування: значення, що надходить із нейрона в прихованому шарі, множиться на вагу, пов'язану з цим нейроном, і додається до зважених значень інших нейронів. Ця сума стає результатом. Для задач класифікування видається по одному виходу (з окремим набором вагових коефіцієнтів та одиницею підсумовування) для кожної цільової категорії. Вихідним значенням для категорії є ймовірність того, що оцінюваний випадок має цю категорію.
Тренування
Процес тренування визначає такі параметри:
- Кількість нейронів у прихованому шарі
- Координати центру кожної РБФ прихованого шару
- Радіус (розкид) кожної РБФ у кожному вимірі
- Ваги, застосовувані до виходів РБФ, коли вони переходять на рівень підсумовування
Для тренування РБМ використовували різні методи. Один підхід спочатку використовує кластерування методом k-середніх для пошуку центрів кластерів, які потім використовують як центри для РБФ. Проте кластерування методом k-середніх обчислювально витратне й часто не породжує оптимальної кількості центрів. Інший підхід полягає у використанні випадкової підмножини тренувальних точок як центрів.
DTREG використовує алгоритм тренування, який використовує еволюційний підхід для визначання оптимальних точок центрів та розкидів для кожного нейрона. Він визначає, коли припинити додавання нейронів до мережі, відстежуючи оцінювану похибку виключення по одному (англ. LOO, leave-one-out error), і припиняючи, коли похибка LOO починає збільшуватися через перенавчання.
Обчислення оптимальних ваг між нейронами в прихованому шарі та шарі підсумовування виконують за допомогою гребеневої регресії. Ітеративна процедура обчислює оптимальний параметр лямбда регуляризації, який мінімізує похибку узагальненого перехресного затверджування (англ. generalized cross-validation, GCV).
Узагальнена регресійна нейронна мережа
Узагальнена регресійна нейронна мережа (англ. General regression neural network, GRNN) — це нейронна мережа асоціативної пам'яті, подібна до ймовірнісної нейронної мережі, але яку використовують для регресії та наближення, а не для класифікування.
Глибока мережа переконань
Глибока мережа переконань (ГМП, англ. deep belief network, DBN) — це ймовірнісна породжувальна модель, що складається з кількох прихованих шарів. Її можливо вважати композицією простих модулів, що вчаться.
ГМП можливо використовувати для породжувального попереднього тренування глибокої нейронної мережі (ГНМ, англ. deep neural network, DNN), використовуючи отримані ваги ГМП як початкові ваги ГНМ. Потім різні розрізнювальні алгоритми можуть доналаштовувати ці ваги. Це особливо корисно, коли тренувальні дані обмежені, оскільки погано встановлені початкові ваги можуть значно перешкоджати тренуванню. Ці попередньо натреновані ваги потрапляють в область простору ваг, ближчу до оптимальних ваг, ніж випадкові варіанти. Це забезпечує як покращене моделювання, так і швидшу остаточну збіжність.
Рекурентна нейронна мережа
Рекурентні нейронні мережі (РНМ, англ. Recurrent neural networks, RNN) поширюють дані вперед, але також і назад, від пізніших етапів обробки до попередніх. РНМ можливо використовувати як загальні обробники послідовностей.
Повнорекурентна
Цю архітектуру розроблено в 1980-х роках. Її мережа створює орієнтоване з'єднання між кожною парою вузлів. Кожен має змінне в часі дійснозначне (більше ніж просто нуль або одиниця) збудження (вихід). Кожне з'єднання має змінювану дійснозначну вагу. Деякі з вузлів називаються міченими вузлами, деякі — вузлами виходу, решту — прихованими вузлами.
Для керованого навчання в дискретночасовій постановці тренувальні послідовності дійснозначних векторів входу стають послідовностями збудження вузлів входу, по одному вектору входу за раз. На кожному кроці часу кожен невхідний вузол обчислює своє поточне збудження як нелінійну функцію зваженої суми збуджень усіх вузлів, від яких він отримує з'єднання. Система може явно збуджувати (незалежно від сигналів входу) деякі вузли виходу в певні моменти часу. Наприклад, якщо послідовність входу ще мовленнєвий сигнал, що відповідає вимовленій цифрі, кінцевим цільовим виходом у кінці послідовності може бути мітка, яка класифікує цю цифру. Для кожної послідовності її похибка це сума відхилень усіх збуджень, обчислених мережею, від відповідних цільових сигналів. Для тренувального набору численних послідовностей загальна похибка це сума помилок усіх окремих послідовностей.
Щоби мінімізувати загальну похибку, можливо використовувати градієнтний спуск, щоби змінювати кожну вагу пропорційно її похідній відносно похибки, за умови, що нелінійні передавальні функції диференційовні. Стандартний метод називають «зворотним поширенням у часі» або ЗПЧ (англ. backpropagation through time, BPTT), це узагальнення зворотного поширення для мереж прямого поширення. Обчислювально витратніший інтерактивний варіант називають «реальночасовим рекурентним навчанням» або РЧРН (англ. Real-Time Recurrent Learning, RTRL). На відміну від ЗПЧ цей алгоритм локальний у часі, але не локальний у просторі. Існує інтерактивний гібрид ЗПЧ та ЗЧРН із проміжною складністю з варіантами для безперервного часу. Основна проблема з градієнтним спуском для стандартних архітектур РНМ полягає в тому, що градієнти похибок зникають експоненційно швидко з розміром часової затримки між важливими подіями. Ці проблеми долає архітектура довгої короткочасної пам'яті.
У постановці навчання з підкріпленням жоден учитель не надає цільових сигналів. Натомість для оцінювання продуктивності час від часу використовується функція допасованості, або функція винагороди, або функція корисності, яка впливає на потік входу через вузли виходу, з'єднані з приводами, які впливають на середовище. Для оптимізації вагової матриці часто використовують варіанти еволюційного обчислення.
Гопфілда
Мережа Гопфілда (як і подібні мережі на основі атракторів) становить історичний інтерес, хоча вона не є загальною РНМ, оскільки вона не призначена для обробки послідовностей зразків. Натомість їй потрібні стаціонарні входи. Це РНМ, у якій усі з'єднання симетричні. Вона гарантує свою збіжність. Якщо з'єднання треновано з використанням геббового навчання, мережа Гопфілда може працювати як робастна асоціативна пам'ять, стійка до змін з'єднань.
Машина Больцмана
Машину Больцмана можливо розглядати як зашумлену мережу Гопфілда. Це одна з перших нейронних мереж, яка продемонструвала навчання латентних змінних (прихованих вузлів). Навчання машини Больцмана спочатку симулювалося повільно, але алгоритм контрастивного розходження пришвидшує тренування машин Больцмана та [en].
Самоорганізаційна карта
Самоорганізаційна карта (СОК, англ. self-organizing map, SOM) використовує некероване навчання. Набір нейронів навчається відображувати точки простору входу на координати у просторі виходу. Простір входу може мати відмінні виміри та топологію, ніж простір виходу, і СОК намагається їх зберегти.
Навчане векторне квантування
[en] (НВК, англ. learning vector quantization, LVQ) можливо інтерпретувати як нейромережну архітектуру. Прототипні представники класів параметризують, разом із відповідною мірою відстані, у схемі класифікації на основі відстані.
Проста рекурентна
Прості рекурентні мережі (англ. simple recurrent networks) мають три шари з додаванням набору «контекстних вузлів» на шарі входу. До цих вузлів надходять з'єднання з прихованого шару або шару виходу з фіксованою одиничною вагою. На кожному часовому кроці вхідні дані поширюються стандартним прямим чином, а потім застосовується подібне до зворотного поширення правило навчання (без виконання градієнтного спуску). Фіксовані зворотні з'єднання залишають копію попередніх значень прихованих вузлів у контекстних вузлах (оскільки вони поширюються з'єднаннями до застосування правила навчання).
Резервуарне обчислення
Резервуарне обчислення (англ. reservoir computing) — це обчислювальна система, яку можливо розглядати як розширення нейронних мереж. Зазвичай сигнал входу подають у фіксовану (випадкову) динамічну систему, звану резервуаром (англ. reservoir), чия динаміка відображає сигнал входу до вищої вимірності. Механізм зчитування (англ. readout) тренують відображувати цей резервуар до бажаного виходу. Тренування здійснюють лише на етапі зчитування. Одним із типів резервуарного обчислення є рідкі скінченні автомати.
Відлуння стану
Мережа з відлунням стану (МВС, англ. echo state network, ESN) використовує розріджено з'єднаний випадковий прихований шар. Єдиною тренованою частиною мережі є ваги нейронів виходу. МВС добре відтворюють певні часові ряди.
Довга короткочасна пам'ять
Довга короткочасна пам'ять (ДКЧП, англ. long short-term memory, LSTM) дозволяє уникати проблеми зникання градієнта. Вона працює навіть із великими затримками між входами та може обробляти сигнали, які змішують низькочастотні та високочастотні складові. РНМ ДКЧП перевершували інші РНМ та інші методи навчання послідовностей, такі як ПММ, у таких застосуваннях як вивчення мови та розпізнавання неперервного рукописного тексту.
Двонапрямна
Двонапрямна РНМ, або ДРНМ (англ. bi-directional RNN, BRNN), використовує скінченну послідовність для передбачування або мічення кожного елемента послідовності на основі як минулого, так і майбутнього контексту цього елемента. Це здійснюють додаванням виходів двох РНМ: одна оброблює послідовність зліва направо, інша — справа наліво. Поєднані виходи це передбачувачі надаваних учителем цільових сигналів. Ця методика виявилася особливо корисною у поєднанні з ДКЧП.
Ієрархічна
Ієрархічна РНМ (англ. hierarchical RNN) поєднує елементи різними способами, щоби розкласти ієрархічну поведінку на корисні підпрограми.
Стохастична
Відмінну форму звичайних нейронних мереж, стохастичну штучну нейронну мережу (англ. stochastic artificial neural network), використовували як наближення випадкових функцій.
Генетичний масштаб
РНМ (часто ДКЧП), де ряд розкладають на кілька масштабів, кожен з яких інформує про основну відстань між двома послідовними точками. Масштаб першого порядку складається з нормальної РНМ, другого порядку складається з усіх точок, розділених двома індексами, і так далі. РНМ N-го порядку з'єднує перший та останній вузол. Результати з усіх різних масштабів розглядають як [en], а пов'язані оцінки використовують генетично для наступної ітерації.
Модульна
Біологічні дослідження показали, що людський мозок працює як сукупність невеликих мереж. Це усвідомлення породило поняття модульних нейронних мереж, у яких кілька невеликих мереж співпрацюють або змагаються для розв'язання задачі.
Комітет машин
Комітет машин (КМ, англ. committee of machines, CoM) — це набір різних нейронних мереж, які разом «голосують» за певний приклад. Загалом це дає набагато кращий результат, ніж окремі мережі. Оскільки нейронні мережі страждають на локальні мінімуми, починання з тієї самої архітектури та тренування, але з використанням випадково різних початкових ваг, часто дають дуже різні результати.[] КМ прагне стабілізувати цей результат.
КМ схожий на загальний метод машинного навчання натяжкове агрегування (англ. bagging), за винятком того, що необхідну різноманітність машин у комітеті отримують тренуванням з різними початковими вагами, а не тренуванням на різних випадково вибраних підмножинах тренувальних даних.
Асоціативна
Асоціативна нейронна мережа (АСНМ, англ. associative neural network, ASNN) — це розширення комітету машин, яке поєднує декілька нейронних мереж прямого поширення та методику k-найближчих сусідів. Вона використовує кореляцію між відгуками ансамблю як міру відстані серед проаналізованих випадків для kНС. Це виправляє зміщення ансамблю нейронної мережі. Асоціативна нейронна мережа має пам'ять, яка може збігатися з тренувальним набором. Якщо стають доступними нові дані, мережа миттєво покращує свою передбачувальну здатність і забезпечує наближення даних (самонавчається) без перетреновування. Інша важлива особливість АСНМ це можливість інтерпретування результатів нейронної мережі шляхом аналізу кореляцій між випадками даних у просторі моделей.
Фізична
Фізична нейронна мережа (англ. physical neural network) містить електрично регульований опірний матеріал для імітування штучних синапсів. До прикладів належить нейронна мережа ADALINE на основі мемристорів. [en] це фізичне втілення штучної нейронної мережі на оптичних складових.
Динамічна
Динамічні нейронні мережі (англ. dynamic neural networks) розглядають нелінійну багатовимірну поведінку та включають (навчання) залежної від часу поведінки, такої як перехідні явища та ефекти затримки. Методики оцінювання системного процесу на основі спостережуваних даних підпадають під загальну категорію виявляння системи.
Каскадна
Каскадна кореляція (англ. cascade correlation) — це архітектура та алгоритм керованого навчання. Замість простого підлаштовування ваг у мережі з фіксованою топологією каскадна кореляція починається з мінімальної мережі, а потім автоматично тренується й додає нові приховані вузли один за одним, створюючи багатошарову структуру. Щойно новий прихований вузол додано до мережі, його ваги з боку входу заморожуються. Тоді цей вузол стає постійним виявлячем ознак у мережі, доступним для отримування виходів або для створення інших, складніших виявлячів ознак. Архітектура каскадної кореляції має кілька переваг: вона швидко навчається, визначає власний розмір і топологію, зберігає створені структури, навіть якщо тренувальний набір змінюється, і не вимагає зворотного поширення.
Нейронечітка
Нейронечітка мережа (англ. neuro-fuzzy network) — це система нечіткого висновування (СНВ, англ. fuzzy inference system, FIS) в тілі штучної нейронної мережі. Залежно від типу СНВ кілька шарів імітують процеси, залучені у подібних до нечіткого висновування внесенні нечіткості (англ. fuzzification), висновуванні, агрегуванні та відновленні чіткості (англ. defuzzification). Вбудовування СНВ у загальну структуру ШНМ має перевагу використання доступних методів тренування ШНМ для знаходження параметрів нечіткої системи.
Композиційна шаблоностворювальна
Композиційні шаблоностворювальні мережі (КШСМ, англ. compositional pattern-producing networks, CPPN) — це різновид штучних нейронних мереж, які відрізняються своїм набором передавальних функцій та способом їх застосовування. У той час як типові штучні нейронні мережі часто містять лише сигмоїдні функції (й іноді гауссові), КШСМ можуть містити обидва типи функцій та багато інших. Крім того, на відміну від типових штучних нейронних мереж, КШСМ застосовують над усім простором можливих даних входу, щоби вони могли подавати повне зображення. Оскільки вони є композиціями функцій, КШСМ фактично кодують зображення з нескінченною роздільністю, і їх можливо дискретизувати для конкретного дисплея з будь-якою оптимальною роздільністю.
Мережі з пам'яттю
Мережі з пам'яттю (англ. memory networks) включають [en]. Цю довготривалу пам'ять можливо читати та записувати до неї з метою використання її для передбачування. Ці моделі застосовували в контексті відповідання на питання (англ. question answering, QA), де довготривала пам'ять фактично діє як (динамічна) база знань, а виходом є текстова відповідь.
У [en] та ієрархічній часовій пам'яті образи, закодовані нейронними мережами, використовуються як адреси асоціативної пам'яті, причому «нейрони» по суті слугують кодувальниками та декодувальниками адрес. Проте ранні контролери таких видів пам'яті не були диференційовними.
Асоціативна пам'ять з одного погляду
Цей тип мережі (англ. one-shot associative memory) може додавати нові образи без перетреновування. Це здійснюється шляхом створення спеціальної структури пам'яті, яка призначує кожен новий образ ортогональній площині за допомогою суміжно з'єднаних ієрархічних масивів. Ця мережа пропонує реальночасове розпізнавання образів та високу масштабованість; це вимагає паралельної обробки й тому найкраще підходить для таких платформ, як бездротові сенсорні мережі, мережні обчислення та ГПЗП.
Ієрархічна часова пам'ять
Ієрархічна часова пам'ять (ІЧП, англ. hierarchical temporal memory, HTM) моделює деякі структурні та алгоритмічні властивості нової кори. ІЧП — біоміметична модель, що ґрунтується на теорії пам'яті — передбачування. ІЧП — це метод для виявляння та висновування високорівневих причин спостережуваних вхідних образів та послідовностей, і відтак побудови дедалі складнішої моделі світу.
ІЧП поєднує наявні ідеї щоби імітувати нову кору простою конструкцією, яка пропонує багато можливостей. ІЧП поєднує та розширює підходи, використовувані в баєсових мережах, алгоритмах просторового та часового кластерування, використовуючи при цьому деревоподібну ієрархію вузлів, поширену в нейронних мережах.
Голографічна асоціативна пам'ять
Голографічна асоціативна пам'ять (ГАП, англ. Holographic Associative Memory, HAM) — це аналогова кореляційна асоціативна система «стимул-відгук». Інформація відображається на фазове спрямування комплексних чисел. Ця пам'ять ефективна для завдань асоціативного запам'ятовування, узагальнювання та розпізнавання образів зі змінною увагою. Динамічна локалізація пошуку є центральною для біологічної пам'яті. При зоровому сприйнятті люди зосереджуються на конкретних об'єктах в образі. Люди можуть змінювати зосередження з об'єкта на об'єкт без навчання. ГАП може імітувати цю здатність, створюючи явні подання для зосереджування. Вона використовує бімодальне подання образа та схожий на голограму комплексний сферичний ваговий простір станів. ГАМ корисні для оптичного втілювання, оскільки гіперсферичні обчислення в їхній основі можливо втілювати за допомогою оптичних обчислень.
Пов'язані з ДКЧП диференційовні структури пам'яті
Окрім довгої короткочасної пам'яті (ДКЧП), інші підходи також додали диференційовну пам'ять до рекурентних функцій. Наприклад:
- Диференційовні дії проштовхування та виштовхування для мереж альтернативної пам'яті, звані нейронними стековими машинами (англ. neural stack machines)
- Мережі пам'яті, в яких зовнішнє диференційовне сховище керівної мережі знаходиться у швидких вагах іншої мережі
- Забувальні вентилі ДКЧП
- Автореферентні РНМ з особливими вузлами виходу для адресування та швидкого маніпулювання власними вагами РНМ на диференційовний манір (внутрішнє сховище)
- Навчання перетворення з необмеженою пам'яттю
Нейронні машини Тюрінга
Нейронні машини Тюрінга (НМТ, англ. neural Turing machines) спаровують мережі ДКЧП із зовнішніми ресурсами пам'яті, з якими вони можуть взаємодіяти за допомогою процесів уваги (англ. attentional processes). Ця зв'язана система аналогічна машині Тюрінга, але диференціюється наскрізно, що дозволяє ефективно тренувати її градієнтним спуском. Попередні результати показують, що нейронні машини Тюрінга можуть висновувати з прикладів входу та виходу прості алгоритми, такі як копіювання, впорядковування та асоціативне пригадування.
[en] (англ. differentiable neural computers, DNC) — це розширення НМТ. На задачах обробки послідовностей вони перевершили нейронні машини Тюрінга, системи довгої короткочасної пам'яті та мережі з пам'яттю.
Семантичне гешування
Підходи, які подають попередній досвід безпосередньо, і використовують схожий досвід для формування локальної моделі, часто називають методами найближчого сусіда або k-найближчих сусідів. В семантичному гешуванні (англ. semantic hashing) корисне глибоке навчання, де з великого набору документів отримують глибоку графову модель векторів кількостей слів. Документи відображуються на комірки пам'яті таким чином, що семантично схожі документи розташовуються за близькими адресами. Потім документи, схожі на документ із запиту, можливо знаходити шляхом простого доступу до всіх адрес, що відрізняються від адреси документа із запиту лише кількома бітами. На відміну від [en], що оперує 1000-бітними адресами, семантичне гешування працює на 32- або 64-бітних адресах, що зустрічаються в традиційній комп'ютерній архітектурі.
Вказівникові мережі
Глибокі нейронні мережі можливо потенційно поліпшувати поглибленням та скороченням параметрів, за збереження здатності до тренування. В той час як тренування надзвичайно глибоких (наприклад, завглибшки в мільйон шарів) нейронних мереж може бути непрактичним, ЦП-подібні архітектури, такі як вказівникові мережі (англ. pointer networks), та нейронні машини з довільним доступом (англ. neural random-access machines), долають це обмеження завдяки застосуванню зовнішньої пам'яті з довільним доступом та інших складових, що зазвичай належать до комп'ютерної архітектури, таких як регістри, АЛП та вказівники. Такі системи працюють на векторах розподілів імовірностей, що зберігаються в комірках пам'яті та регістрах. Таким чином, ця модель повністю диференційовна, й тренується з краю в край. Ключовою характеристикою цих моделей є те, що їхня глибина, розмір їхньої короткочасної пам'яті та число параметрів можливо змінювати незалежно.
Гібриди
Кодувально—декодувальні мережі
Кодувально-декодувальні системи (англ. encoder–decoder frameworks) ґрунтуються на нейронних мережах, що відображують високоструктурований вхід на високоструктурований вихід. Цей підхід виник у контексті машинного перекладу, де вхід та вихід є писаними реченнями двома природними мовами. В тій праці використовували РНМ або ЗНМ ДКЧП як кодувальник для отримання зведення про вхідне речення, і це зведення декодували умовною РНМ-моделлю мови для продукування перекладу. Для цих систем є спільними будівельні блоки: вентильні (англ. gated) РНМ та ЗНМ, і треновані механізми уваги.
Інші типи
Миттєво треновані
[en] (МТНН, англ. Instantaneously trained neural networks, ITNN) були натхнені явищем короткочасного навчання (англ. short-term learning), яке, здається, відбувається миттєво. У цих мережах ваги прихованого шару та шару виходу відображаються безпосередньо з даних тренувального вектора. Зазвичай вони працюють з двійковими даними, але існують версії й для неперервних даних, які потребують невеликої додаткової обробки.
Спайкові
[en] (СНМ, англ. spiking neural networks, SNN) явно враховують хронометраж вхідних даних. Вхід та вихід цієї мережі зазвичай подано у вигляді рядів спайків (дельта-функції або складнішого вигляду). СНМ може обробляти інформацію в часовій області (сигналів, які змінюються в часі). Їх часто втілюють як рекурентні мережі. СНМ також є одним із видів [en].
Спайкові нейронні мережі з затримками аксональної провідності демонструють поліхронізацію, і відтак можуть мати дуже велику ємність пам'яті.
СНМ та часові кореляції нейронних збірок у таких мережах використовували для моделювання поділу фігур/тла та з'єднування областей у зоровій системі.
Просторові
Просторові нейронні мережі (ПНМ, англ. spatial neural networks, SNN) становлять надкатегорію спеціалізованих нейронних мереж (НМ) для подавання та передбачування географічних явищ. Вони загалом покращують як статистичну точність, так і надійність а-просторових/класичних НМ, коли обробляють геопросторові набори даних, а також інших просторових (статистичних) моделей (наприклад, просторових регресійних моделей), коли змінні цих геопросторових наборів даних описують нелінійні зв'язки. Прикладами ПНМ є поросторові нейронні мережі OSFA, SVANN та GWNN.
Неокогнітрон
Неокогнітрон (англ. neocognitron) — це ієрархічна багатошарова мережа, змодельована на основі зорової кори. Він використовує кілька типів вузлів (первинно два, звані [en], англ. simple, та [en], англ. complex, клітинами) як каскадну модель для використання в задачах розпізнавання образів. Локальні ознаки виділяють S-клітини, деформацію яких допускають C-клітини. Локальні ознаки у вході поступово інтегруються та класифікуються на вищих шарах. Серед різних видів неокогнітронів є системи, які можуть виявляти декілька образів в одному вході за допомогою зворотного поширення для досягнення [en]. Його використовували для завдань розпізнавання образів, він надихнув згорткові нейронні мережі.
Змішані ієрархічно—глибокі моделі
Змішані ієрархічно-глибокі моделі (англ. compound hierarchical-deep models) компонують глибокі мережі з непараметричними баєсовими моделями. Ознак можливо навчатися із застосуванням таких глибоких архітектур як ГМП, глибокі машини Больцмана (ГМБ), глибокі автокодувальники, згорткові варіанти, ппОМБ, глибокі кодувальні мережі, ГМП з розрідженим навчанням ознак, РНМ, умовні ГМП, знешумлювальні автокодувальники. Це забезпечує краще подання, швидше навчання та точніше класифікування з даними високої вимірності. Проте ці архітектури слабкі в навчанні нововведених класів на кількох прикладах, оскільки всі вузли мережі залучено до подання входу (розподілене подання) і мусить бути підлаштовувано разом (високий ступінь свободи). Обмеження ступеню свободи знижує кількість параметрів для навчання, допомагаючи навчанню нових класів з кількох прикладів. Ієрархічні баєсові (ІБ) моделі дозволяють навчатися з кількох прикладів, наприклад для комп'ютерного бачення, статистики та когнітивної науки.
Змішані ІГ-архітектури мають на меті поєднання характеристик як ІБ, так і глибоких мереж. Змішана архітектура ІПД-ГМБ це [en] (ІПД, англ. hierarchical Dirichlet process, HDP) як ієрархічна модель, що включає архітектуру ГМБ. Це повна породжувальна модель, узагальнювана з абстрактних понять, що течуть крізь шари цієї моделі, здатна синтезувати нові приклади нововведених класів, що виглядають «досить» природно. Всіх рівнів навчаються спільно, зведенням до максимуму функції внеску спільної логарифмічної ймовірності.
У ГМБ з трьома прихованими шарами ймовірність видимого входу ''ν'' становить
де — набір прихованих вузлів, а — параметри моделі, що подають умови симетричної взаємодії видимі—приховані та приховані—приховані.
Навчена модель ГМБ це неорієнтована модель, яка визначає спільний розподіл . Одним зі способів вираження навченого є умовна модель та апріорний член .
Тут подає умовну модель ГМБ, яку можливо розглядати як двошарову ГМБ, але з членами зміщення, заданими станами :
Глибокі передбачувальні кодувальні мережі
Глибока передбачувальна кодувальна мережа (ГПКМ, англ. deep predictive coding network, DPCN) — це передбачувальна схема кодування, що використовує спадну (англ. top-down) інформацію для емпіричного підлаштовування апріорних, необхідних для процедури висхідного (англ. bottom-up) висновування, засобами глибокої локально з'єднаної породжувальної моделі. Це працює шляхом виділяння розріджених ознак зі спостережень, що змінюються в часі, із застосуванням лінійної динамічної моделі. Потім для навчання інваріантних подань ознак застосовується стратегія агрегування (англ. pooling). Ці блоки компонуються, щоби сформувати глибоку архітектуру, і тренуються жадібним пошаровим некерованим навчанням. Шари утворюють щось на зразок марковського ланцюга, такого, що стани на будь-якому шарі залежать лише від наступного та попереднього шарів.
ГПКМ передбачують подання шару, використовуючи спадний підхід із застосуванням інформації з вищого шару та часових залежностей від попередніх станів.
ГПКМ можливо розширювати таким чином, щоби утворювати згорткову мережу.
Багатошарова ядрова машина
Багатошарові ядрові машини (БЯМ, англ. Multilayer Kernel Machine, MKM) — це спосіб навчання високонелінійних функцій за допомогою ітеративного застосування слабко нелінійних ядер. Вони використовують [en] (ЯМГК, англ. kernel principal component analysis, KPCA) як метод для жадібного пошарового передтренувального кроку глибокого некерованого навчання.
-й шар навчається подання попереднього шару , виділяючи головних компонент (ГК, англ. principal component, PC) виходу проєкційного шару в області ознак, що виводить ядро. Щоби знижувати розмірність уточненого подання на кожному шарі, керована стратегія обирає найінформативніші серед ознак, виділених ЯМГК. Процес такий:
- вишикувати ознак відповідно до їхньої взаємної інформації з мітками класів;
- для різних значень K та обчислити рівень похибки класифікації методом k-найближчих сусідів (k-НС, англ. K-nearest neighbor, K-NN), використовуючи лише найінформативніших ознак на затверджувальному наборі;
- значення з яким класифікатор досяг найнижчого рівня похибки, визначає число ознак, які потрібно зберегти.
Метод ЯМГК як будівельні блоки для БЯМ супроводжують деякі недоліки.
Для розуміння усного мовлення розробили простіший спосіб застосування ядрових машин для глибокого навчання. Головна ідея полягає у використанні ядрової машини для наближення неглибокої нейронної мережі з нескінченним числом прихованих вузлів, і подальшому застосуванні глибокої складальної мережі для зрощування виходу цієї ядрової машини та сирого входу при побудові наступного, вищого рівня ядрової машини. Число рівнів у цій глибокій опуклій мережі є гіперпараметром системи в цілому, який повинен визначатися перехресним затверджуванням.
Див. також
- [en]
- Автокодувальник
- [en]
- Багатошаровий перцептрон
- [en]
- Blue Brain
- Генетичний алгоритм
- [en]
- Дерева рішень
- Експертна система
- Імітація відпалу
- [en]
- Лінійний розділювальний аналіз
- Логістична регресія
- Метод головних компонент
- Метод рою часток
- Нейроеволюція, [en] (англ. NEAT)
- Нейронна мережа з часовою затримкою
- Нейронний газ
- [en]
- [en] (мікропроцесор)
- [en]
- [en]
- Систолічний масив
- [en]
- Штучне життя
Примітки
- University Of Southern California (16 червня 2004). Gray Matters: New Clues Into How Neurons Process Information. ScienceDaily (англ.). Цитата: «… „Дивно, що після сотні років сучасних нейронаукових досліджень ми досі не знаємо базових функцій обробки інформації нейроном“, зазначив Барлетт Мел…»
- Weizmann Institute of Science. (2 квітня 2007). It's Only A Game Of Chance: Leading Theory Of Perception Called Into Question. ScienceDaily (англ.). Цитата: «…„Починаючи з 1980-х років, багато нейробіологів вірили, що вони володіють ключем до того, як нарешті почати розуміти роботу мозку. Але ми надали переконливі свідчення того, що мозок може не кодувати інформацію за допомогою точних моделей діяльності.“…»
- University Of California – Los Angeles (14 грудня 2004). UCLA Neuroscientist Gains Insights Into Human Brain From Study Of Marine Snail. ScienceDaily (англ.). Цитата: «…„Наша робота передбачає, що мозкові механізми для формування такого роду асоціацій можуть бути надзвичайно подібними у равликів і вищих організмів… Ми не повністю розуміємо навіть дуже прості види навчання у цих тварин.“…»
- Yale University (13 квітня 2006). Brain Communicates In Analog And Digital Modes Simultaneously. ScienceDaily (англ.). Цитата: «…Маккормік сказав, що майбутні дослідження та моделі роботи нейронів у мозку повинні враховувати змішану аналогово-цифрову природу зв'язку. Лише завдяки глибокому розумінню цього змішаного способу передачі сигналу можна досягти дійсно глибокого розуміння мозку та його розладів, сказав він…»
- Ivakhnenko, Alexey Grigorevich (1968). The group method of data handling – a rival of the method of stochastic approximation. Soviet Automatic Control (англ.). 13 (3): 43—55.
- Ivakhnenko, A. G. (1971). Polynomial Theory of Complex Systems. IEEE Transactions on Systems, Man, and Cybernetics (англ.). 1 (4): 364—378. doi:10.1109/TSMC.1971.4308320. S2CID 17606980.
- Kondo, T.; Ueno, J. (2008). Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels. International Journal of Innovative Computing, Information and Control (англ.). 4 (1): 175—187.
- Bengio, Y. (15 листопада 2009). Learning Deep Architectures for AI (PDF). Foundations and Trends in Machine Learning (англ.). 2 (1): 1—127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. ISSN 1935-8237. S2CID 207178999.
- Liou, Cheng-Yuan (2008). Modeling word perception using the Elman network (PDF). Neurocomputing (англ.). 71 (16–18): 3150—3157. doi:10.1016/j.neucom.2008.04.030.
- Liou, Cheng-Yuan (2014). Autoencoder for words. Neurocomputing (англ.). 139: 84—96. doi:10.1016/j.neucom.2013.09.055.
- Diederik P Kingma; Welling, Max (2013). Auto-Encoding Variational Bayes (англ.). arXiv:1312.6114 [stat.ML].
- Boesen, A.; Larsen, L.; Sonderby, S.K. (2015). Generating Faces with Torch (англ.).
- Competitive probabilistic neural network (PDF Download Available). ResearchGate (англ.). Процитовано 16 березня 2017.
- (англ.). Архів оригіналу за 18 грудня 2010. Процитовано 22 березня 2012.
- Cheung, Vincent; Cannons, Kevin (10 червня 2002). (PDF). Probabilistic and Statistical Inference Group (англ.). Архів оригіналу (PDF) за 31 січня 2012. Процитовано 22 березня 2012.
- (англ.). Архів оригіналу за 22 березня 2017. Процитовано 30 липня 2023., глава з інтернетпосібника [de]
- Zhang, Wei (1990). Parallel distributed processing model with local space-invariant interconnections and its optical architecture. Applied Optics (англ.). 29 (32): 4790—7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/ao.29.004790. PMID 20577468.
- Zhang, Wei (1988). Shift-invariant pattern recognition neural network and its optical architecture. Proceedings of Annual Conference of the Japan Society of Applied Physics (англ.).
- Weng, J.; Ahuja, N.; Huang, T. S. (травень 1993). Learning recognition and segmentation of 3-D objects from 2-D images (PDF). 4th International Conf. Computer Vision (англ.). Berlin, Germany. с. 121—128.
- Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybern. (англ.). 36 (4): 193—202. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
- LeCun, Yann. LeNet-5, convolutional neural networks (англ.). Процитовано 16 листопада 2013.
- . DeepLearning 0.1 (англ.). LISA Lab. Архів оригіналу за 28 грудня 2017. Процитовано 31 серпня 2013.
- LeCun та ін. (1989). Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation (англ.). 1: 541—551.
- LeCun, Yann (2016). Slides on Deep Learning Online (англ.).
- Unsupervised Feature Learning and Deep Learning Tutorial. ufldl.stanford.edu (англ.).
- Hinton, Geoffrey E.; Krizhevsky, Alex; Wang, Sida D. (2011), Transforming Auto-Encoders, Artificial Neural Networks and Machine Learning – ICANN 2011, Lecture Notes in Computer Science (англ.), т. 6791, Springer, с. 44—51, CiteSeerX 10.1.1.220.5099, doi:10.1007/978-3-642-21735-7_6, ISBN , S2CID 6138085
- Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott E.; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). Going deeper with convolutions. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7–12, 2015 (англ.). IEEE Computer Society. с. 1—9. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594.
- Ran, Lingyan; Zhang, Yanning; Zhang, Qilin; Yang, Tao (12 червня 2017). Convolutional Neural Network-Based Robot Navigation Using Uncalibrated Spherical Images (PDF). Sensors (англ.). 17 (6): 1341. Bibcode:2017Senso..17.1341R. doi:10.3390/s17061341. ISSN 1424-8220. PMC 5492478. PMID 28604624.
- van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (1 січня 2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (ред.). Deep content-based music recommendation (PDF) (англ.). Curran Associates. с. 2643—2651.
- Collobert, Ronan; Weston, Jason (1 січня 2008). A unified architecture for natural language processing. Proceedings of the 25th international conference on Machine learning - ICML '08 (англ.). New York, NY, USA: ACM. с. 160—167. doi:10.1145/1390156.1390177. ISBN . S2CID 2617020.
- Deng, Li; Yu, Dong; Platt, John (2012). (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (англ.). с. 2133—2136. doi:10.1109/ICASSP.2012.6288333. ISBN . S2CID 16171497. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 30 липня 2023.
- Deng, Li; Yu, Dong (2011). Deep Convex Net: A Scalable Architecture for Speech Pattern Classification (PDF). Proceedings of the Interspeech (англ.): 2285—2288. doi:10.21437/Interspeech.2011-607. S2CID 36439.
- David, Wolpert (1992). Stacked generalization. Neural Networks (англ.). 5 (2): 241—259. CiteSeerX 10.1.1.133.8090. doi:10.1016/S0893-6080(05)80023-1.
- Hutchinson, Brian; Deng, Li; Yu, Dong (2012). Tensor deep stacking networks. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 1—15 (8): 1944—1957. doi:10.1109/tpami.2012.268. PMID 23267198. S2CID 344385.
- Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). Reducing the Dimensionality of Data with Neural Networks. Science (англ.). 313 (5786): 504—507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662. S2CID 1658773.
- Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing (англ.). 20 (1): 30—42. CiteSeerX 10.1.1.227.8990. doi:10.1109/tasl.2011.2134090. S2CID 14862572.
- Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). Acoustic Modeling Using Deep Belief Networks. IEEE Transactions on Audio, Speech, and Language Processing (англ.). 20 (1): 14—22. CiteSeerX 10.1.1.338.2670. doi:10.1109/tasl.2011.2109382. S2CID 9530137.
- Achler, T.; Omar, C.; Amir, E. (2008). Shedding Weights: More With Less. International Joint Conference on Neural Networks (англ.).
- Hinton, G.E. (2009). Deep belief networks. Scholarpedia (англ.). 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
- Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). An empirical evaluation of deep architectures on problems with many factors of variation. Proceedings of the 24th international conference on Machine learning. ICML '07 (англ.). New York, NY, USA: ACM. с. 473—480. CiteSeerX 10.1.1.77.3242. doi:10.1145/1273496.1273556. ISBN . S2CID 14805281.
- Werbos, P. J. (1988). Generalization of backpropagation with application to a recurrent gas market model. Neural Networks (англ.). 1 (4): 339—356. doi:10.1016/0893-6080(88)90007-x.
- Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. Learning Internal Representations by Error Propagation (Звіт) (англ.). S2CID 62245742.
- Robinson, A. J.; Fallside, F. (1987). The utility driven dynamic error propagation network. Technical Report CUED/F-INFENG/TR.1 (PDF) (Звіт) (англ.). Cambridge University Engineering Department.
- Williams, R. J.; Zipser, D. (1994). Gradient-based learning algorithms for recurrent networks and their computational complexity (PDF). Back-propagation: Theory, Architectures and Applications (англ.). Hillsdale, NJ: Erlbaum. S2CID 14792754.
- Schmidhuber, J. (1989). A local learning algorithm for dynamic feedforward and recurrent networks. Connection Science (англ.). 1 (4): 403—412. doi:10.1080/09540098908915650. S2CID 18721007.
- Principe, J.C.; Euliano, N.R.; Lefebvre, W.C. Neural and Adaptive Systems: Fundamentals through Simulation (англ.).
- Schmidhuber, J. (1992). A fixed size storage O(n3) time complexity learning algorithm for fully recurrent continually running networks. Neural Computation (англ.). 4 (2): 243—248. doi:10.1162/neco.1992.4.2.243. S2CID 11761172.
- Williams, R. J. (1989). Complexity of exact gradient computation algorithms for recurrent neural networks. Technical Report Technical Report NU-CCS-89-27 (Звіт) (англ.). Boston: Northeastern University, College of Computer Science.
- Pearlmutter, B. A. (1989). Learning state space trajectories in recurrent neural networks (PDF). Neural Computation (англ.). 1 (2): 263—269. doi:10.1162/neco.1989.1.2.263. S2CID 16813485.
- Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen (Дипломна робота Diploma) (нім.). Munich: Institut f. Informatik, Technische Univ.
- Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies (PDF). У Kremer, S. C.; Kolen, J. F. (ред.). A Field Guide to Dynamical Recurrent Neural Networks (англ.). IEEE Press.
- Hochreiter, S.; Schmidhuber, J. (1997). Long short-term memory. Neural Computation (англ.). 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
- Cruse, Holk. Neural Networks as Cybernetic Systems (PDF) (англ.) (вид. 2nd and revised).
- Schrauwen, Benjamin; Verstraeten, David; Campenhout, Jan Van (2007). An overview of reservoir computing: theory, applications, and implementations. European Symposium on Artificial Neural Networks ESANN (англ.). с. 471—482.
- Mass, Wolfgang; Nachtschlaeger, T.; Markram, H. (2002). Real-time computing without stable states: A new framework for neural computation based on perturbations. Neural Computation (англ.). 14 (11): 2531—2560. doi:10.1162/089976602760407955. PMID 12433288. S2CID 1045112.
- Echo state network. Scholarpedia (англ.).
- Jaeger, H.; Harnessing (2004). Predicting chaotic systems and saving energy in wireless communication. Science (англ.). 304 (5667): 78—80. Bibcode:2004Sci...304...78J. CiteSeerX 10.1.1.719.2301. doi:10.1126/science.1091277. PMID 15064413. S2CID 2184251.
- Gers, F. A.; Schmidhuber, J. (2001). LSTM recurrent networks learn simple context free and context sensitive languages. IEEE Transactions on Neural Networks (англ.). 12 (6): 1333—1340.
- Graves, A.; Schmidhuber, J. (2009). Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks (PDF). Advances in Neural Information Processing Systems 22, NIPS'22 (англ.). Vancouver: MIT Press. с. 545-552.
- Schuster, Mike; Paliwal, Kuldip K. (1997). Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing (англ.). 45 (11): 2673—2681. Bibcode:1997ITSP...45.2673S. CiteSeerX 10.1.1.331.9441. doi:10.1109/78.650093. S2CID 18375389.
- Graves, A.; Schmidhuber, J. (2005). Framewise phoneme classification with bidirectional LSTM and other neural network architectures. Neural Networks (англ.). 18 (5–6): 602—610. CiteSeerX 10.1.1.331.5800. doi:10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
- Schmidhuber, J. (1992). Learning complex, extended sequences using the principle of history compression. Neural Computation (англ.). 4 (2): 234—242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
- (PDF) (англ.). Архів оригіналу (PDF) за 18 липня 2011. Процитовано 12 липня 2010.
- Associative Neural Network. www.vcclab.org (англ.). Процитовано 17 червня 2017.
- Anderson, James A.; Rosenfeld, Edward (2000). Talking Nets: An Oral History of Neural Networks (англ.). MIT Press. ISBN .
- Fahlman, Scott E.; Lebiere, Christian (29 серпня 1991). (PDF) (англ.). Carnegie Mellon University. Архів оригіналу (PDF) за 3 травня 2013. Процитовано 4 жовтня 2014.
- Schmidhuber, Juergen (2014). Memory Networks (англ.). arXiv:1410.3916 [cs.AI].
- Schmidhuber, Juergen (2015). End-To-End Memory Networks (англ.). arXiv:1503.08895 [cs.NE].
- Schmidhuber, Juergen (2015). Large-scale Simple Question Answering with Memory Networks (англ.). arXiv:1506.02075 [cs.LG].
- Hinton, Geoffrey E. (1984). (англ.). Архів оригіналу за 2 травня 2016.
- Nasution, B.B.; Khan, A.I. (February 2008). A Hierarchical Graph Neuron Scheme for Real-Time Pattern Recognition. IEEE Transactions on Neural Networks (англ.). 19 (2): 212—229. doi:10.1109/TNN.2007.905857. PMID 18269954. S2CID 17573325.
- Sutherland, John G. (1 січня 1990). A holographic model of memory, learning and expression. International Journal of Neural Systems (англ.). 01 (3): 259—267. doi:10.1142/S0129065790000163.
- Das, S.; Giles, C.L.; Sun, G.Z. (1992). Learning Context Free Grammars: Limitations of a Recurrent Neural Network with an External Stack Memory. 14th Annual Conf. of the Cog. Sci. Soc. (англ.). с. 79.
- Mozer, M. C.; Das, S. (1993). . Advances in Neural Information Processing Systems (англ.). 5: 863—870. Архів оригіналу за 6 грудня 2019. Процитовано 25 серпня 2019.
- Schmidhuber, J. (1992). Learning to control fast-weight memories: An alternative to recurrent nets. Neural Computation (англ.). 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
- Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). Learning precise timing with LSTM recurrent networks (PDF). JMLR (англ.). 3: 115—143.
- Jürgen Schmidhuber (1993). An introspective network that can learn to run its own weight change algorithm. Proceedings of the International Conference on Artificial Neural Networks, Brighton (англ.). IEE. с. 191—195.
{{}}
: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url () - Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). Learning to Learn Using Gradient Descent. ICANN (англ.). 2130: 87—94. CiteSeerX 10.1.1.5.323.
- Schmidhuber, Juergen (2015). Learning to Transduce with Unbounded Memory (англ.). arXiv:1506.02516 [cs.NE].
- Schmidhuber, Juergen (2014). Neural Turing Machines (англ.). arXiv:1410.5401 [cs.NE].
- Burgess, Matt. DeepMind's AI learned to ride the London Underground using human-like reason and memory. WIRED UK (англ.). Процитовано 19 жовтня 2016.
- DeepMind AI 'Learns' to Navigate London Tube. PCMAG (англ.). Процитовано 19 жовтня 2016.
- Mannes, John (13 жовтня 2016). DeepMind's differentiable neural computer helps you navigate the subway with its memory. TechCrunch (англ.). Процитовано 19 жовтня 2016.
- Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (12 жовтня 2016). Hybrid computing using a neural network with dynamic external memory. Nature (англ.). 538 (7626): 471—476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
- Differentiable neural computers | DeepMind. DeepMind (англ.). 12 жовтня 2016. Процитовано 19 жовтня 2016.
- Atkeson, Christopher G.; Schaal, Stefan (1995). Memory-based neural networks for robot learning. Neurocomputing (англ.). 9 (3): 243—269. doi:10.1016/0925-2312(95)00033-6.
- Salakhutdinov, Ruslan; Hinton, Geoffrey (2009). Semantic hashing (PDF). International Journal of Approximate Reasoning (англ.). 50 (7): 969—978.
- Le, Quoc V.; Mikolov, Tomas (2014). Distributed representations of sentences and documents (англ.). arXiv:1405.4053 [cs.CL].
- Schmidhuber, Juergen (2015). Pointer Networks (англ.). arXiv:1506.03134 [stat.ML].
- Schmidhuber, Juergen (2015). Neural Random-Access Machines (англ.). arXiv:1511.06392 [cs.LG].
- Kalchbrenner, N.; Blunsom, P. (2013). Recurrent continuous translation models. EMNLP'2013 (англ.). с. 1700—1709.
- Sutskever, I.; Vinyals, O.; Le, Q. V. (2014). Sequence to sequence learning with neural networks (PDF). Twenty-eighth Conference on Neural Information Processing Systems (англ.). arXiv:1409.3215.
- Schmidhuber, Juergen (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation (англ.). arXiv:1406.1078 [cs.CL].
- Schmidhuber, Juergen; Courville, Aaron; Bengio, Yoshua (2015). Describing Multimedia Content using Attention-based Encoder—Decoder Networks. IEEE Transactions on Multimedia (англ.). 17 (11): 1875—1886. arXiv:1507.01053. Bibcode:2015arXiv150701053C. doi:10.1109/TMM.2015.2477044. S2CID 1179542.
- Gerstner; Kistler. . icwww.epfl.ch (англ.). Архів оригіналу за 4 червня 2017. Процитовано 18 червня 2017. вільно доступний інтернетпідручник
- Izhikevich EM (February 2006). Polychronization: computation with spikes. Neural Computation (англ.). 18 (2): 245—82. doi:10.1162/089976606775093882. PMID 16378515. S2CID 14253998.
- Morer I, Cardillo A, Díaz-Guilera A, Prignano L, Lozano S (2020). Comparing spatial networks: a one-size-fits-all efficiency-driven approach. Physical Review (англ.). 101 (4): 042301. doi:10.1103/PhysRevE.101.042301. hdl:2445/161417. PMID 32422764. S2CID 49564277.
- Gupta J, Molnar C, Xie Y, Knight J, Shekhar S (2021). Spatial variability aware deep neural networks (SVANN): a general approach. ACM Transactions on Intelligent Systems and Technology (англ.). 12 (6): 1—21. doi:10.1145/3466688. S2CID 244786699.
- Hagenauer J, Helbich M (2022). A geographically weighted artificial neural network. International Journal of Geographical Information Science (англ.). 36 (2): 215—235. doi:10.1080/13658816.2021.1871618. S2CID 233883395.
- David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration (англ.). Oxford University Press. с. 106. ISBN .
- Hubel, DH; Wiesel, TN (October 1959). Receptive fields of single neurones in the cat's striate cortex. J. Physiol. (англ.). 148 (3): 574—91. doi:10.1113/jphysiol.1959.sp006308. PMC 1363130. PMID 14403679.
- Fukushima, 1987, с. 83.
- Fukushima, 1987, с. 84.
- Fukushima, 2007.
- Fukushima, 1987, с. 81, 85.
- LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). Deep learning. Nature (англ.). 521 (7553): 436—444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
- Hinton, G. E.; Osindero, S.; Teh, Y. (2006). A fast learning algorithm for deep belief nets (PDF). [en] (англ.). 18 (7): 1527—1554. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
- Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). (PDF) (англ.). 3: 448—455. Архів оригіналу (PDF) за 6 листопада 2015. Процитовано 25 серпня 2019.
- Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). Exploring Strategies for Training Deep Neural Networks. The Journal of Machine Learning Research (англ.). 10: 1—40.
- Coates, Adam; Carpenter, Blake (2011). Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning (PDF) (англ.): 440—445.
- Lee, Honglak; Grosse, Roger (2009). Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. Proceedings of the 26th Annual International Conference on Machine Learning (англ.). с. 609—616. CiteSeerX 10.1.1.149.6800. doi:10.1145/1553374.1553453. ISBN . S2CID 12008458.
- Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). (PDF). Proceedings of the 28th International Conference on Machine Learning (англ.). Т. 10. с. 1—8. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
- Lin, Yuanqing; Zhang, Tong; Zhu, Shenghuo; Yu, Kai (2010). Deep Coding Network. Advances in Neural Information Processing Systems 23 (NIPS 2010) (англ.). Т. 23. с. 1—9.
- Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). (PDF). Advances in Neural Information Processing Systems (англ.). 23: 1—8. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
- Socher, Richard; Lin, Clif (2011). (PDF). Proceedings of the 26th International Conference on Machine Learning (англ.). Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
- Taylor, Graham; Hinton, Geoffrey (2006). (PDF). Advances in Neural Information Processing Systems (англ.). Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
- Vincent, Pascal; Larochelle, Hugo (2008). Extracting and composing robust features with denoising autoencoders. Proceedings of the 25th international conference on Machine learning - ICML '08 (англ.). с. 1096—1103. CiteSeerX 10.1.1.298.4083. doi:10.1145/1390156.1390294. ISBN . S2CID 207168299.
- Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). Learning overhypotheses with hierarchical Bayesian models. Developmental Science (англ.). 10 (3): 307—21. CiteSeerX 10.1.1.141.5560. doi:10.1111/j.1467-7687.2007.00585.x. PMID 17444972.
- Xu, Fei; Tenenbaum, Joshua (2007). Word learning as Bayesian inference. Psychol. Rev. (англ.). 114 (2): 245—72. CiteSeerX 10.1.1.57.9649. doi:10.1037/0033-295X.114.2.245. PMID 17500627.
- Chen, Bo; Polatkan, Gungor (2011). The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning (PDF). Proceedings of the 28th International Conference on International Conference on Machine Learning (англ.). Omnipress. с. 361—368. ISBN .
- Fei-Fei, Li; Fergus, Rob (2006). One-shot learning of object categories. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 28 (4): 594—611. CiteSeerX 10.1.1.110.9024. doi:10.1109/TPAMI.2006.79. PMID 16566508. S2CID 6953475.
- Rodriguez, Abel; Dunson, David (2008). The Nested Dirichlet Process. Journal of the American Statistical Association (англ.). 103 (483): 1131—1154. CiteSeerX 10.1.1.70.9873. doi:10.1198/016214508000000553. S2CID 13462201.
- Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). Learning with Hierarchical-Deep Models. IEEE Transactions on Pattern Analysis and Machine Intelligence (англ.). 35 (8): 1958—71. CiteSeerX 10.1.1.372.909. doi:10.1109/TPAMI.2012.269. PMID 23787346. S2CID 4508400.
- Chalasani, Rakesh; Principe, Jose (2013). Deep Predictive Coding Networks (англ.). arXiv:1301.3541 [cs.LG].
- Scholkopf, B; Smola, Alexander (1998). Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation (англ.). 44 (5): 1299—1319. CiteSeerX 10.1.1.53.8911. doi:10.1162/089976698300017467. S2CID 6674407.
- Cho, Youngmin (2012). Kernel Methods for Deep Learning (PDF) (англ.): 1—9.
- Deng, Li; Tur, Gokhan; He, Xiaodong; Hakkani-Tür, Dilek (1 грудня 2012). Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding. Microsoft Research (англ.).
Література
- Fukushima, Kunihiko (1987). A hierarchical neural network model for selective attention. У Eckmiller, R.; Von der Malsburg, C. (ред.). Neural computers (англ.). Springer-Verlag. с. 81—90.
- Fukushima, Kunihiko (2007). Neocognitron. Scholarpedia (англ.). 2 (1): 1717. Bibcode:2007SchpJ...2.1717F. doi:10.4249/scholarpedia.1717.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Isnuye bagato tipiv shtuchnih nejronnih merezh ShNM angl artificial neural networks ANN Shtuchni nejronni merezhi ce en nathneni biologichnimi nejronnimi merezhami j yaki vikoristovuyut shobi nablizhuvati funkciyi zazvichaj nevidomi Zokrema yih nadihaye povedinka nejroniv ta elektrichnih signaliv yaki voni peredayut mizh vhodom napriklad vid ochej abo nervovih zakinchen u ruci obrobkoyu ta vihodom iz mozku napriklad reakciyeyu na svitlo dotik abo teplo Sposib zabezpechennya nejronami semantichnogo zv yazku ye oblastyu potochnih doslidzhen Bilshist shtuchnih nejronnih merezh lishe desho shozhi na svoyi skladnishi biologichni analogi ale voni duzhe efektivni u vikonanni postavlenih zavdan napriklad klasifikuvannya chi segmentuvannya Deyaki shtuchni nejronni merezhi ye adaptivnimi sistemami i yih vikoristovuyut napriklad dlya en ta seredovish yaki postijno zminyuyutsya Nejronni merezhi mozhut buti aparatnimi nejroni podano fizichnimi skladovimi ta en komp yuterni modeli j mozhut vikoristovuvati riznomanitni topologiyi ta algoritmi navchannya Pryamogo poshirennyaDokladnishe Nejronna merezha pryamogo poshirennya Nejronna merezha pryamogo poshirennya angl feedforward neural network bula pershim i najprostishim tipom U cij merezhi informaciya ruhayetsya lishe vid sharu vhodu bezposeredno kriz bud yaki prihovani shari do sharu vihodu bez cikliv petel Merezhi pryamogo poshirennya mozhlivo buduvati za dopomogoyu riznih tipiv vuzliv takih yak binarni nejroni Makkalloha Pittsa najprostishim z yakih ye perceptron Neperervni nejroni chasto z sigmoyidnoyu peredavalnoyu funkciyeyu vikoristovuyut u konteksti zvorotnogo poshirennya Metod grupovogo urahuvannya argumentiv Dokladnishe Metod grupovogo urahuvannya argumentiv Metod grupovogo urahuvannya argumentiv MGUA angl Group Method of Data Handling GMDH maye povnistyu avtomatichnu strukturnu ta parametrichnu optimizaciyu modeli Peredavalnimi funkciyami vuzliv ye polinomi Kolmogorova Gabora yaki dopuskayut dodavannya ta mnozhennya Vin vikoristovuye glibokij bagatosharovij perceptron iz vismoma sharami Ce merezha kerovanogo navchannya yaka zrostaye shar za sharom de kozhen shar trenuyetsya za dopomogoyu regresijnogo analizu Nepotribni elementi viyavlyayutsya za dopomogoyu zatverdzhuvalnogo naboru j vidsikayutsya za dopomogoyu regulyarizaciyi Rozmir ta glibina otrimuvanoyi merezhi zalezhat vid postavlenogo zavdannya Avtokoduvalnik Dokladnishe Avtokoduvalnik Avtokoduvalnik angl autoencoder avtoasociator abo merezha diabolo 19 shozhij na bagatosharovij perceptron BShP angl MLP iz sharom vhodu sharom vihodu j odnim abo dekilkoma prihovanimi sharami sho yih z yednuyut Prote shar vihodu maye taku zh kilkist vuzliv sho j shar vhodu Jogo priznachennya vidbudovuvati vlasni dani vhodu zamist vidavati cilove znachennya Tozh avtokoduvalniki modeli nekerovanogo navchannya Avtokoduvalnik vikoristovuyut dlya nekerovanogo navchannya efektivnih koduvan zazvichaj z metoyu znizhennya rozmirnosti ta dlya navchannya porodzhuvalnih modelej danih Imovirnisnij Dokladnishe Imovirnisna nejronna merezha Imovirnisna nejronna merezha INM angl PNN ce chotiririvneva nejronna merezha pryamogo poshirennya Shari vhodu prihovani obraziv ta pidsumovuvannya ta vihodu V algoritmi INM batkivsku funkciyu gustini jmovirnosti FGI angl PDF kozhnogo klasu nablizhuyut viknom Parcena ta neparametrichnoyu funkciyeyu Potim vikoristovuyuchi FGI kozhnogo klasu ocinyuyut klasovu jmovirnist novogo vhodu j vikoristovuyut pravilo Bayesa shobi vidnesti jogo do klasu z najvishoyu aposteriornoyu jmovirnistyu Yiyi otrimali z bayesovoyi merezhi ta statistichnogo algoritmu pid nazvoyu en Yiyi vikoristovuyut dlya klasifikuvannya ta rozpiznavannya obraziv Chasova zatrimka Dokladnishe Nejronna merezha z chasovoyu zatrimkoyu Nejronna merezha z chasovoyu zatrimkoyu angl time delay neural network TDNN ce arhitektura pryamogo poshirennya dlya poslidovnih danih yaka rozpiznaye oznaki nezalezhno vid polozhennya v poslidovnosti Shobi dosyagti invariantnosti shodo zsuvu v chasi do danih vhodu dodayut zatrimki shobi kilka tochok danih tochok u chasi analizuvalisya razom Zazvichaj vona ye chastinoyu bilshoyi sistemi rozpiznavannya obraziv Yiyi vtilyuvali za dopomogoyu merezhi perceptrona vagovi koeficiyenti z yednan yakoyi bulo trenovano zvorotnim poshirennyam kerovanim navchannyam Zgortkova Dokladnishe Zgortkova nejronna merezha Zgortkova nejronna merezha ZNM angl CNN ConvNet abo zsuvoinvarianta chi prostorovoinvariantna angl shift invariant space invariant ce klas glibokih merezh skladenih z odnogo abo kilkoh zgortkovih shariv iz povnoz yednanimi sharami sho vidpovidayut sharam tipovih ShNM nagori Vona vikoristovuye zv yazani vagi ta shari agreguvannya Zokrema maksimizacijnogo agreguvannya angl max pooling Yiyi chasto strukturuyut za dopomogoyu zgortkovoyi arhitekturi Fukusimi Voni ye vidozminami bagatosharovih perceptroniv yaki vikoristovuyut minimalnu poperednyu obrobku Cya arhitektura dozvolyaye ZNM vikoristovuvati perevagi dvovimirnoyi strukturi danih vhodu Yiyi shema z yednannya vuzliv nathnena budovoyu zorovoyi kori Vuzli reaguyut na stimuli v obmezhenij oblasti prostoru vidomij yak receptivne pole Receptivni polya chastkovo perekrivayutsya nakrivayuchi vse pole zoru Vidguk vuzla mozhlivo nabliziti matematichno operaciyeyu zgortki ZNM pidhodyat dlya obrobki vizualnih ta inshih dvovimirnih danih Voni pokazali chudovi rezultati u zastosuvannyah yak do zobrazhen tak i do movlennya Yih mozhlivo trenuvati standartnim zvorotnim poshirennyam ZNM trenuvati legshe nizh inshi zvichajni gliboki nejronni merezhi pryamogo poshirennya i voni mayut nabagato menshe parametriv dlya ocinyuvannya Kapsulni nejronni merezhi angl CapsNet dodayut do ZNM strukturi zvani kapsulami angl capsules j perevikoristovuyut dani vihodu kilkoh kapsul dlya formuvannya stabilnishih shodo riznih zburen podan Do prikladiv zastosuvan u komp yuternomu zori nalezhat en i en Voni mayut shiroke zastosuvannya v rozpiznavanni zobrazhen i video rekomendacijnih sistemah ta obrobci prirodnoyi movi Gliboka skladalna merezha Gliboka skladalna merezha GSM angl deep stacking network DSN gliboka opukla merezha angl deep convex network gruntuyetsya na iyerarhiyi blokiv sproshenih nejromerezhnih moduliv Yiyi zaproponuvali 2011 roku Den ta Yu Vona formulyuye navchannya yak zadachu opukloyi optimizaciyi z rozv yazkom zamknenogo viglyadu pidkreslyuyuchi podibnist cogo mehanizmu do skladalnogo uzagalnyuvannya Kozhen blok GSM ce prostij modul yakij sam po sobi legko natrenuvati kerovanim chinom bez zvorotnogo poshirennya dlya cilih blokiv Kozhen blok skladayetsya zi sproshenogo bagatosharovogo perceptrona BShP z yedinim prihovanim sharom Prihovanij shar h maye logistichni sigmoyidni vuzli a shar vihodu linijni Z yednannya mizh cimi sharami podano vagovoyu matriceyu U z yednannya vhodu z prihovanim sharom mayut vagovu matricyu W Cilovi vektori t utvoryuyut stovpci matrici T a vektori danih vhodu x utvoryuyut stovpci matrici X Matriceyu prihovanih vuzliv ye H s W T X displaystyle boldsymbol H sigma boldsymbol W T boldsymbol X Moduli trenuyut po cherzi tozh vagi nizhchogo sharu W na kozhnomu etapi vidomi Funkciya vikonuye poelementnu logistichnu sigmoyidnu diyu Kozhen iz blokiv ocinyuye odin i toj zhe klas kincevih mitok y i jogo ocinka poyednuyetsya z pervinnim vhodom X dlya utvorennya rozshirenogo vhodu dlya nastupnogo bloku Takim chinom vhid pershogo bloku mistit lishe pervinni dani todi yak do vhodiv nastupnih blokiv dodayutsya takozh i vihodi poperednih blokiv Todi navchannya vagovoyi matrici U vishogo sharu za zadanih inshih vag u merezhi mozhlivo sformulyuvati yak zadachu opukloyi optimizaciyi min U T f U T H T F 2 displaystyle min U T f boldsymbol U T boldsymbol H boldsymbol T F 2 sho maye rozv yazok zamknenogo viglyadu Na vidminu vid inshih glibokih arhitektur takih yak GMP metoyu ye ne viyavlyannya peretvorenogo podannya oznak Struktura iyerarhiyi takogo tipu arhitekturi robit paralelne navchannya pryamolinijnim yak zadacha optimizaciyi v paketnomu rezhimi U suto rozriznyuvalnih zavdannyah GSM perevershuyut zvichajni GMP Tenzorni gliboki skladalni merezhi Cya arhitektura rozshirennya GSM Vona proponuye dva vazhlivi vdoskonalennya vona vikoristovuye informaciyu vishogo poryadku z kovariacijnih statistik i vona peretvoryuye neopuklu zadachu nizhchogo sharu na opuklu pidzadachu vishogo sharu TGSM vikoristovuyut kovariacijnu statistiku v bilinijnomu vidobrazhenni z kozhnogo z dvoh okremih naboriv prihovanih vuzliv odnogo j togo zh sharu do peredbachen za dopomogoyu tenzora tretogo poryadku V toj chas yak rozparalelyuvannya j masshtabovanist u zvichajnih GNM ne rozglyadayut serjozno vse navchannya dlya GSM i TGSM zdijsnyuyetsya v paketnomu rezhimi sho umozhlivlyuye rozparalelyuvannya Rozparalelyuvannya dozvolyaye masshtabuvati cyu konstrukciyu na bilshi glibshi arhitekturi ta nabori danih Cya bazova arhitektura pidhodit dlya riznomanitnih zavdan takih yak klasifikuvannya ta regresiya Regulyatornij zvorotnij zv yazokMerezhi z regulyatornim zvorotnim zv yazkom angl regulatory feedback networks mali pochatok yak model dlya poyasnennya mozkovih yavish viyavlyanih pid chas rozpiznavannya vklyuchno en v usij merezhi ta en universalnimi pri sensornomu rozpiznavanni Mehanizm dlya vikonannya optimizaciyi pid chas rozpiznavannya stvoryuyut za dopomogoyu galmivnih z yednan zvorotnogo zv yazku z timi zhe vhodami yaki yih aktivuyut Ce zmenshuye vimogi pid chas navchannya ta dozvolyaye polegshiti navchannya ta utochnennya zalishayuchi mozhlivist vikonuvati skladne rozpiznavannya Merezha z regulyatornim zvorotnim zv yazkom zdijsnyuye visnovuvannya z vikoristannyam negativnogo zvorotnogo zv yazku Zvorotnij zv yazok vikoristovuyetsya dlya poshuku optimalnogo zbudzhennya vuzliv Ce najbilshe shozhe na en ale vidriznyayetsya vid k najblizhchih susidiv tim sho matematichno emulyuye merezhi pryamogo poshirennya Radialni bazisni funkciyi RBF Dokladnishe Radialnobazisna merezha Radialni bazisni funkciyi angl radial basis functions ce funkciyi yaki mayut kriterij vidstani vidnosno yakogos centru Radialni bazisni funkciyi zastosovuvali yak zaminu sigmoyidnoyi peredavalnoyi harakteristiki prihovanogo sharu v bagatosharovih perceptronah Radialnobazisni merezhi RBM mayut dva shari na pershomu dani vhodu vidobrazhuvano na kozhnu RBF u prihovanomu shari Yak RBF zazvichaj obirayut gaussiani U zadachah regresiyi shar vihodu ce linijna kombinaciya znachen prihovanogo sharu sho podaye serednij peredbachuvanij rezultat Interpretaciya cogo znachennya sharu vihodu taka zhe yak i regresijna model u statistici U zadachah klasifikuvannya shar vihodu ce zazvichaj sigmoyidna funkciya linijnoyi kombinaciyi znachen prihovanogo sharu sho podaye aposteriornu jmovirnist Produktivnist v oboh vipadkah chasto pokrashuyut za dopomogoyu en metodik vidomih u klasichnij statistici yak grebeneva regresiya Ce vidpovidaye apriornomu perekonannyu v malih znachennyah parametriv a vidtak i gladkih funkciyah vihodu v bayesovij sistemi Radialnobazisni merezhi mayut perevagu unikannya lokalnih minimumiv tak samo yak i bagatosharovi perceptroni Ce pov yazano z tim sho yedini parametri yaki pidlashtovuyutsya v procesi navchannya ce linijne vidobrazhennya z prihovanogo sharu do sharu vihodu Linijnist garantuye sho poverhnya pohibki kvadratichna i vidtak maye yedinij minimum yakij legko znahoditi U zadachah regresiyi jogo mozhlivo znahoditi za odnu matrichnu operaciyu U zadachah klasifikuvannya iz fiksovanoyu nelinijnistyu yaku vnosit sigmoyidna funkciya vihodu najefektivnishe vporuvatisya za dopomogoyu en RBM mayut nedolik vimagannya dobrogo pokrittya prostoru vhodu radialnimi bazisnimi funkciyami Centri RBF viznachayut iz priv yazkoyu do rozpodilu danih vhodu ale bez priv yazki do zavdannya peredbachuvannya Yak rezultat resursi podannya mozhut marnuvatisya na dilyankah prostoru vhodu sho ne mayut vidnoshennya do cogo zavdannya Poshirene rozv yazannya pov yazati kozhnu tochku danih z yiyi vlasnim centrom hocha ce mozhe rozshiryuvati linijnu sistemu dlya rozv yazuvannya na kincevomu shari j potrebuvati stiskalnih metodik zadlya uniknennya perenavchannya Pov yazuvannya kozhnih vhidnih danih iz RBF prirodnim chinom prizvodit do takih yadrovih metodiv yak opornovektorni mashini OVM ta gaussovi procesi RBF en Usi tri pidhodi vikoristovuyut nelinijnu yadrovu funkciyu dlya proyeciyuvannya danih vhodu do prostoru v yakomu zadachu navchannya mozhlivo rozv yazati za dopomogoyu linijnoyi modeli Podibno do gaussovih procesiv i na vidminu vid OVM radialnobazisni merezhi zazvichaj trenuyut za sistemoyu maksimalnoyi pravdopodibnosti maksimizuyuchi jmovirnist minimizuyuchi pohibku OVM unikayut perenavchannya maksimizuyuchi natomist rozdilennya OVM perevershuyut RBM u bilshosti zastosuvan klasifikuvannya U zastosuvannyah regresiyi voni mozhut buti konkurentospromozhnimi koli rozmirnist prostoru vhodu vidnosno mala Yak pracyuyut RBM Radialnobazisni nejronni merezhi konceptualno podibni modelyam k najblizhchih susidiv k NS Osnovna ideya polyagaye v podibnosti vihodiv dlya podibnih vhodiv Pripustimo sho kozhen vipadok u trenuvalnomu nabori maye dvi zminni peredbachuvachi x ta y a cilova zminna maye dvi kategoriyi pozitivnu ta negativnu Yak obchislyuyetsya cilova zminna za zadanogo novogo vipadku z peredbachuvalnimi znachennyami x 6 y 5 1 Klasifikaciya najblizhchih susidiv vikonuvana dlya cogo prikladu zalezhit vid togo skilki susidnih tochok rozglyadayut Yaksho vikoristovuyut 1 NS i najblizhcha tochka negativna to novu tochku slid klasifikuvati yak negativnu Inshim chinom yaksho vikoristovuyut klasifikaciyu 9 NS i vrahovuyut najblizhchi 9 tochok to vpliv navkolishnih 8 pozitivnih tochok mozhe perevazhiti najblizhchu 9 tu negativnu tochku RBM roztashovuye nejroni v prostori opisuvanomu zminnimi peredbachuvachami x y u comu prikladi Cej prostir maye stilki vimiriv skilki zminnih peredbachuvachiv Evklidovu vidstan obchislyuyut vid novoyi tochki do centru kozhnogo nejrona a radialnu bazisnu funkciyu RBF takozh zvanu yadrovoyu funkciyeyu zastosovuyut do vidstani dlya obchislennya vagi vplivu dlya kozhnogo nejrona Radialnu bazisnu funkciyu nazivayut tak tomu sho argumentom ciyeyu funkciyi ye radiusna vidstan Vaga RBF vidstan Radialna bazisna funkciya Znachennya dlya novoyi tochki viznachayut pidsumovuvannyam znachen vihodu funkcij RBF pomnozhenih na vagi obchisleni dlya kozhnogo nejrona Radialna bazisna funkciya dlya nejrona maye centr i radius takozh zvanij rozkidom angl spread Radius mozhe buti riznim dlya kozhnogo nejrona a v RBM porodzhuvanih DTREG radius mozhe vidriznyatisya j u kozhnomu vimiri Za bilshogo rozkidu viddaleni vid tochki nejroni mayut bilshij vpliv Arhitektura RBM mayut tri shari Shar vhodu u shari vhodu po odnomu nejronu dlya kozhnoyi zminnoyi peredbachuvacha U vipadku kategorijnih zminnih vikoristovuyut N 1 nejroniv de N kilkist kategorij Nejroni vhodu standartizuyut diapazoni znachen vidnimannyam mediani ta dilennyam na mizhkvartilnij rozmah Potim nejroni vhodu peredayut znachennya kozhnomu z nejroniv prihovanogo sharu Prihovanij shar cej shar maye zminnu kilkist nejroniv viznachuvanu procesom trenuvannya Kozhen nejron skladayetsya z radialnoyi bazisnoyi funkciyi z centrom u tochci z takoyu kilkistyu vimiriv skilki zminnih peredbachuvachiv Rozkid radius RBF mozhe vidriznyatisya dlya kozhnogo vimiru Centri ta rozkidi viznachaye trenuvannya Koli podano vektor x znachen vhodu z sharu vhodu prihovanij nejron obchislyuye evklidovu vidstan cogo viprobuvalnogo vipadku vid svoyeyi centralnoyi tochki a potim zastosovuye yadrovu RBF do ciyeyi vidstani vikoristovuyuchi znachennya rozkidu Otrimane znachennya peredayetsya na riven pidsumovuvannya Riven pidsumovuvannya znachennya sho nadhodit iz nejrona v prihovanomu shari mnozhitsya na vagu pov yazanu z cim nejronom i dodayetsya do zvazhenih znachen inshih nejroniv Cya suma staye rezultatom Dlya zadach klasifikuvannya vidayetsya po odnomu vihodu z okremim naborom vagovih koeficiyentiv ta odiniceyu pidsumovuvannya dlya kozhnoyi cilovoyi kategoriyi Vihidnim znachennyam dlya kategoriyi ye jmovirnist togo sho ocinyuvanij vipadok maye cyu kategoriyu Trenuvannya Proces trenuvannya viznachaye taki parametri Kilkist nejroniv u prihovanomu shari Koordinati centru kozhnoyi RBF prihovanogo sharu Radius rozkid kozhnoyi RBF u kozhnomu vimiri Vagi zastosovuvani do vihodiv RBF koli voni perehodyat na riven pidsumovuvannya Dlya trenuvannya RBM vikoristovuvali rizni metodi Odin pidhid spochatku vikoristovuye klasteruvannya metodom k serednih dlya poshuku centriv klasteriv yaki potim vikoristovuyut yak centri dlya RBF Prote klasteruvannya metodom k serednih obchislyuvalno vitratne j chasto ne porodzhuye optimalnoyi kilkosti centriv Inshij pidhid polyagaye u vikoristanni vipadkovoyi pidmnozhini trenuvalnih tochok yak centriv DTREG vikoristovuye algoritm trenuvannya yakij vikoristovuye evolyucijnij pidhid dlya viznachannya optimalnih tochok centriv ta rozkidiv dlya kozhnogo nejrona Vin viznachaye koli pripiniti dodavannya nejroniv do merezhi vidstezhuyuchi ocinyuvanu pohibku viklyuchennya po odnomu angl LOO leave one out error i pripinyayuchi koli pohibka LOO pochinaye zbilshuvatisya cherez perenavchannya Obchislennya optimalnih vag mizh nejronami v prihovanomu shari ta shari pidsumovuvannya vikonuyut za dopomogoyu grebenevoyi regresiyi Iterativna procedura obchislyuye optimalnij parametr lyambda regulyarizaciyi yakij minimizuye pohibku uzagalnenogo perehresnogo zatverdzhuvannya angl generalized cross validation GCV Uzagalnena regresijna nejronna merezha Dokladnishe en Uzagalnena regresijna nejronna merezha angl General regression neural network GRNN ce nejronna merezha asociativnoyi pam yati podibna do jmovirnisnoyi nejronnoyi merezhi ale yaku vikoristovuyut dlya regresiyi ta nablizhennya a ne dlya klasifikuvannya Gliboka merezha perekonanObmezhena mashina Bolcmana OMB angl RBM iz povnoz yednanimi vidimimi ta prihovanimi vuzlami Zauvazhte sho z yednan prihovanij prihovanij ta vidimij vidimij nemaye Dokladnishe Gliboka merezha perekonan Gliboka merezha perekonan GMP angl deep belief network DBN ce jmovirnisna porodzhuvalna model sho skladayetsya z kilkoh prihovanih shariv Yiyi mozhlivo vvazhati kompoziciyeyu prostih moduliv sho vchatsya GMP mozhlivo vikoristovuvati dlya porodzhuvalnogo poperednogo trenuvannya glibokoyi nejronnoyi merezhi GNM angl deep neural network DNN vikoristovuyuchi otrimani vagi GMP yak pochatkovi vagi GNM Potim rizni rozriznyuvalni algoritmi mozhut donalashtovuvati ci vagi Ce osoblivo korisno koli trenuvalni dani obmezheni oskilki pogano vstanovleni pochatkovi vagi mozhut znachno pereshkodzhati trenuvannyu Ci poperedno natrenovani vagi potraplyayut v oblast prostoru vag blizhchu do optimalnih vag nizh vipadkovi varianti Ce zabezpechuye yak pokrashene modelyuvannya tak i shvidshu ostatochnu zbizhnist Rekurentna nejronna merezhaDokladnishe Rekurentna nejronna merezha Rekurentni nejronni merezhi RNM angl Recurrent neural networks RNN poshiryuyut dani vpered ale takozh i nazad vid piznishih etapiv obrobki do poperednih RNM mozhlivo vikoristovuvati yak zagalni obrobniki poslidovnostej Povnorekurentna Cyu arhitekturu rozrobleno v 1980 h rokah Yiyi merezha stvoryuye oriyentovane z yednannya mizh kozhnoyu paroyu vuzliv Kozhen maye zminne v chasi dijsnoznachne bilshe nizh prosto nul abo odinicya zbudzhennya vihid Kozhne z yednannya maye zminyuvanu dijsnoznachnu vagu Deyaki z vuzliv nazivayutsya michenimi vuzlami deyaki vuzlami vihodu reshtu prihovanimi vuzlami Dlya kerovanogo navchannya v diskretnochasovij postanovci trenuvalni poslidovnosti dijsnoznachnih vektoriv vhodu stayut poslidovnostyami zbudzhennya vuzliv vhodu po odnomu vektoru vhodu za raz Na kozhnomu kroci chasu kozhen nevhidnij vuzol obchislyuye svoye potochne zbudzhennya yak nelinijnu funkciyu zvazhenoyi sumi zbudzhen usih vuzliv vid yakih vin otrimuye z yednannya Sistema mozhe yavno zbudzhuvati nezalezhno vid signaliv vhodu deyaki vuzli vihodu v pevni momenti chasu Napriklad yaksho poslidovnist vhodu she movlennyevij signal sho vidpovidaye vimovlenij cifri kincevim cilovim vihodom u kinci poslidovnosti mozhe buti mitka yaka klasifikuye cyu cifru Dlya kozhnoyi poslidovnosti yiyi pohibka ce suma vidhilen usih zbudzhen obchislenih merezheyu vid vidpovidnih cilovih signaliv Dlya trenuvalnogo naboru chislennih poslidovnostej zagalna pohibka ce suma pomilok usih okremih poslidovnostej Shobi minimizuvati zagalnu pohibku mozhlivo vikoristovuvati gradiyentnij spusk shobi zminyuvati kozhnu vagu proporcijno yiyi pohidnij vidnosno pohibki za umovi sho nelinijni peredavalni funkciyi diferencijovni Standartnij metod nazivayut zvorotnim poshirennyam u chasi abo ZPCh angl backpropagation through time BPTT ce uzagalnennya zvorotnogo poshirennya dlya merezh pryamogo poshirennya Obchislyuvalno vitratnishij interaktivnij variant nazivayut realnochasovim rekurentnim navchannyam abo RChRN angl Real Time Recurrent Learning RTRL Na vidminu vid ZPCh cej algoritm lokalnij u chasi ale ne lokalnij u prostori Isnuye interaktivnij gibrid ZPCh ta ZChRN iz promizhnoyu skladnistyu z variantami dlya bezperervnogo chasu Osnovna problema z gradiyentnim spuskom dlya standartnih arhitektur RNM polyagaye v tomu sho gradiyenti pohibok znikayut eksponencijno shvidko z rozmirom chasovoyi zatrimki mizh vazhlivimi podiyami Ci problemi dolaye arhitektura dovgoyi korotkochasnoyi pam yati U postanovci navchannya z pidkriplennyam zhoden uchitel ne nadaye cilovih signaliv Natomist dlya ocinyuvannya produktivnosti chas vid chasu vikoristovuyetsya funkciya dopasovanosti abo funkciya vinagorodi abo funkciya korisnosti yaka vplivaye na potik vhodu cherez vuzli vihodu z yednani z privodami yaki vplivayut na seredovishe Dlya optimizaciyi vagovoyi matrici chasto vikoristovuyut varianti evolyucijnogo obchislennya Gopfilda Dokladnishe Merezha Gopfilda Merezha Gopfilda yak i podibni merezhi na osnovi atraktoriv stanovit istorichnij interes hocha vona ne ye zagalnoyu RNM oskilki vona ne priznachena dlya obrobki poslidovnostej zrazkiv Natomist yij potribni stacionarni vhodi Ce RNM u yakij usi z yednannya simetrichni Vona garantuye svoyu zbizhnist Yaksho z yednannya trenovano z vikoristannyam gebbovogo navchannya merezha Gopfilda mozhe pracyuvati yak robastna asociativna pam yat stijka do zmin z yednan Mashina Bolcmana Dokladnishe Mashina Bolcmana Mashinu Bolcmana mozhlivo rozglyadati yak zashumlenu merezhu Gopfilda Ce odna z pershih nejronnih merezh yaka prodemonstruvala navchannya latentnih zminnih prihovanih vuzliv Navchannya mashini Bolcmana spochatku simulyuvalosya povilno ale algoritm kontrastivnogo rozhodzhennya prishvidshuye trenuvannya mashin Bolcmana ta en Samoorganizacijna karta Dokladnishe Samoorganizacijna karta Samoorganizacijna karta SOK angl self organizing map SOM vikoristovuye nekerovane navchannya Nabir nejroniv navchayetsya vidobrazhuvati tochki prostoru vhodu na koordinati u prostori vihodu Prostir vhodu mozhe mati vidminni vimiri ta topologiyu nizh prostir vihodu i SOK namagayetsya yih zberegti Navchane vektorne kvantuvannya Dokladnishe en en NVK angl learning vector quantization LVQ mozhlivo interpretuvati yak nejromerezhnu arhitekturu Prototipni predstavniki klasiv parametrizuyut razom iz vidpovidnoyu miroyu vidstani u shemi klasifikaciyi na osnovi vidstani Prosta rekurentna Prosti rekurentni merezhi angl simple recurrent networks mayut tri shari z dodavannyam naboru kontekstnih vuzliv na shari vhodu Do cih vuzliv nadhodyat z yednannya z prihovanogo sharu abo sharu vihodu z fiksovanoyu odinichnoyu vagoyu Na kozhnomu chasovomu kroci vhidni dani poshiryuyutsya standartnim pryamim chinom a potim zastosovuyetsya podibne do zvorotnogo poshirennya pravilo navchannya bez vikonannya gradiyentnogo spusku Fiksovani zvorotni z yednannya zalishayut kopiyu poperednih znachen prihovanih vuzliv u kontekstnih vuzlah oskilki voni poshiryuyutsya z yednannyami do zastosuvannya pravila navchannya Rezervuarne obchislennya Dokladnishe Rezervuarne obchislennya Rezervuarne obchislennya angl reservoir computing ce obchislyuvalna sistema yaku mozhlivo rozglyadati yak rozshirennya nejronnih merezh Zazvichaj signal vhodu podayut u fiksovanu vipadkovu dinamichnu sistemu zvanu rezervuarom angl reservoir chiya dinamika vidobrazhaye signal vhodu do vishoyi vimirnosti Mehanizm zchituvannya angl readout trenuyut vidobrazhuvati cej rezervuar do bazhanogo vihodu Trenuvannya zdijsnyuyut lishe na etapi zchituvannya Odnim iz tipiv rezervuarnogo obchislennya ye ridki skinchenni avtomati Vidlunnya stanu Dokladnishe Merezha z vidlunnyam stanu Merezha z vidlunnyam stanu MVS angl echo state network ESN vikoristovuye rozridzheno z yednanij vipadkovij prihovanij shar Yedinoyu trenovanoyu chastinoyu merezhi ye vagi nejroniv vihodu MVS dobre vidtvoryuyut pevni chasovi ryadi Dovga korotkochasna pam yat Dokladnishe Dovga korotkochasna pam yat Dovga korotkochasna pam yat DKChP angl long short term memory LSTM dozvolyaye unikati problemi znikannya gradiyenta Vona pracyuye navit iz velikimi zatrimkami mizh vhodami ta mozhe obroblyati signali yaki zmishuyut nizkochastotni ta visokochastotni skladovi RNM DKChP perevershuvali inshi RNM ta inshi metodi navchannya poslidovnostej taki yak PMM u takih zastosuvannyah yak vivchennya movi ta rozpiznavannya neperervnogo rukopisnogo tekstu Dvonapryamna Dokladnishe Dvonapryamna rekurentna nejronna merezha Dvonapryamna RNM abo DRNM angl bi directional RNN BRNN vikoristovuye skinchennu poslidovnist dlya peredbachuvannya abo michennya kozhnogo elementa poslidovnosti na osnovi yak minulogo tak i majbutnogo kontekstu cogo elementa Ce zdijsnyuyut dodavannyam vihodiv dvoh RNM odna obroblyuye poslidovnist zliva napravo insha sprava nalivo Poyednani vihodi ce peredbachuvachi nadavanih uchitelem cilovih signaliv Cya metodika viyavilasya osoblivo korisnoyu u poyednanni z DKChP Iyerarhichna Dokladnishe Rekurentna nejronna merezha Iyerarhichna RNM Iyerarhichna RNM angl hierarchical RNN poyednuye elementi riznimi sposobami shobi rozklasti iyerarhichnu povedinku na korisni pidprogrami Stohastichna Dokladnishe Shtuchna nejronna merezha Stohastichna nejronna merezha Vidminnu formu zvichajnih nejronnih merezh stohastichnu shtuchnu nejronnu merezhu angl stochastic artificial neural network vikoristovuvali yak nablizhennya vipadkovih funkcij Genetichnij masshtab RNM chasto DKChP de ryad rozkladayut na kilka masshtabiv kozhen z yakih informuye pro osnovnu vidstan mizh dvoma poslidovnimi tochkami Masshtab pershogo poryadku skladayetsya z normalnoyi RNM drugogo poryadku skladayetsya z usih tochok rozdilenih dvoma indeksami i tak dali RNM N go poryadku z yednuye pershij ta ostannij vuzol Rezultati z usih riznih masshtabiv rozglyadayut yak en a pov yazani ocinki vikoristovuyut genetichno dlya nastupnoyi iteraciyi ModulnaDokladnishe Modulna nejronna merezha Biologichni doslidzhennya pokazali sho lyudskij mozok pracyuye yak sukupnist nevelikih merezh Ce usvidomlennya porodilo ponyattya modulnih nejronnih merezh u yakih kilka nevelikih merezh spivpracyuyut abo zmagayutsya dlya rozv yazannya zadachi Komitet mashin Dokladnishe en Komitet mashin KM angl committee of machines CoM ce nabir riznih nejronnih merezh yaki razom golosuyut za pevnij priklad Zagalom ce daye nabagato krashij rezultat nizh okremi merezhi Oskilki nejronni merezhi strazhdayut na lokalni minimumi pochinannya z tiyeyi samoyi arhitekturi ta trenuvannya ale z vikoristannyam vipadkovo riznih pochatkovih vag chasto dayut duzhe rizni rezultati dzherelo KM pragne stabilizuvati cej rezultat KM shozhij na zagalnij metod mashinnogo navchannya natyazhkove agreguvannya angl bagging za vinyatkom togo sho neobhidnu riznomanitnist mashin u komiteti otrimuyut trenuvannyam z riznimi pochatkovimi vagami a ne trenuvannyam na riznih vipadkovo vibranih pidmnozhinah trenuvalnih danih Asociativna Asociativna nejronna merezha ASNM angl associative neural network ASNN ce rozshirennya komitetu mashin yake poyednuye dekilka nejronnih merezh pryamogo poshirennya ta metodiku k najblizhchih susidiv Vona vikoristovuye korelyaciyu mizh vidgukami ansamblyu yak miru vidstani sered proanalizovanih vipadkiv dlya kNS Ce vipravlyaye zmishennya ansamblyu nejronnoyi merezhi Asociativna nejronna merezha maye pam yat yaka mozhe zbigatisya z trenuvalnim naborom Yaksho stayut dostupnimi novi dani merezha mittyevo pokrashuye svoyu peredbachuvalnu zdatnist i zabezpechuye nablizhennya danih samonavchayetsya bez peretrenovuvannya Insha vazhliva osoblivist ASNM ce mozhlivist interpretuvannya rezultativ nejronnoyi merezhi shlyahom analizu korelyacij mizh vipadkami danih u prostori modelej FizichnaDokladnishe en Fizichna nejronna merezha angl physical neural network mistit elektrichno regulovanij opirnij material dlya imituvannya shtuchnih sinapsiv Do prikladiv nalezhit nejronna merezha ADALINE na osnovi memristoriv en ce fizichne vtilennya shtuchnoyi nejronnoyi merezhi na optichnih skladovih DinamichnaDinamichni nejronni merezhi angl dynamic neural networks rozglyadayut nelinijnu bagatovimirnu povedinku ta vklyuchayut navchannya zalezhnoyi vid chasu povedinki takoyi yak perehidni yavisha ta efekti zatrimki Metodiki ocinyuvannya sistemnogo procesu na osnovi sposterezhuvanih danih pidpadayut pid zagalnu kategoriyu viyavlyannya sistemi Kaskadna Kaskadna korelyaciya angl cascade correlation ce arhitektura ta algoritm kerovanogo navchannya Zamist prostogo pidlashtovuvannya vag u merezhi z fiksovanoyu topologiyeyu kaskadna korelyaciya pochinayetsya z minimalnoyi merezhi a potim avtomatichno trenuyetsya j dodaye novi prihovani vuzli odin za odnim stvoryuyuchi bagatosharovu strukturu Shojno novij prihovanij vuzol dodano do merezhi jogo vagi z boku vhodu zamorozhuyutsya Todi cej vuzol staye postijnim viyavlyachem oznak u merezhi dostupnim dlya otrimuvannya vihodiv abo dlya stvorennya inshih skladnishih viyavlyachiv oznak Arhitektura kaskadnoyi korelyaciyi maye kilka perevag vona shvidko navchayetsya viznachaye vlasnij rozmir i topologiyu zberigaye stvoreni strukturi navit yaksho trenuvalnij nabir zminyuyetsya i ne vimagaye zvorotnogo poshirennya Nejronechitka Dokladnishe en Nejronechitka merezha angl neuro fuzzy network ce sistema nechitkogo visnovuvannya SNV angl fuzzy inference system FIS v tili shtuchnoyi nejronnoyi merezhi Zalezhno vid tipu SNV kilka shariv imituyut procesi zalucheni u podibnih do nechitkogo visnovuvannya vnesenni nechitkosti angl fuzzification visnovuvanni agreguvanni ta vidnovlenni chitkosti angl defuzzification Vbudovuvannya SNV u zagalnu strukturu ShNM maye perevagu vikoristannya dostupnih metodiv trenuvannya ShNM dlya znahodzhennya parametriv nechitkoyi sistemi Kompozicijna shablonostvoryuvalna Dokladnishe en Kompozicijni shablonostvoryuvalni merezhi KShSM angl compositional pattern producing networks CPPN ce riznovid shtuchnih nejronnih merezh yaki vidriznyayutsya svoyim naborom peredavalnih funkcij ta sposobom yih zastosovuvannya U toj chas yak tipovi shtuchni nejronni merezhi chasto mistyat lishe sigmoyidni funkciyi j inodi gaussovi KShSM mozhut mistiti obidva tipi funkcij ta bagato inshih Krim togo na vidminu vid tipovih shtuchnih nejronnih merezh KShSM zastosovuyut nad usim prostorom mozhlivih danih vhodu shobi voni mogli podavati povne zobrazhennya Oskilki voni ye kompoziciyami funkcij KShSM faktichno koduyut zobrazhennya z neskinchennoyu rozdilnistyu i yih mozhlivo diskretizuvati dlya konkretnogo displeya z bud yakoyu optimalnoyu rozdilnistyu Merezhi z pam yattyuMerezhi z pam yattyu angl memory networks vklyuchayut en Cyu dovgotrivalu pam yat mozhlivo chitati ta zapisuvati do neyi z metoyu vikoristannya yiyi dlya peredbachuvannya Ci modeli zastosovuvali v konteksti vidpovidannya na pitannya angl question answering QA de dovgotrivala pam yat faktichno diye yak dinamichna baza znan a vihodom ye tekstova vidpovid U en ta iyerarhichnij chasovij pam yati obrazi zakodovani nejronnimi merezhami vikoristovuyutsya yak adresi asociativnoyi pam yati prichomu nejroni po suti sluguyut koduvalnikami ta dekoduvalnikami adres Prote ranni kontroleri takih vidiv pam yati ne buli diferencijovnimi Asociativna pam yat z odnogo poglyadu Cej tip merezhi angl one shot associative memory mozhe dodavati novi obrazi bez peretrenovuvannya Ce zdijsnyuyetsya shlyahom stvorennya specialnoyi strukturi pam yati yaka priznachuye kozhen novij obraz ortogonalnij ploshini za dopomogoyu sumizhno z yednanih iyerarhichnih masiviv Cya merezha proponuye realnochasove rozpiznavannya obraziv ta visoku masshtabovanist ce vimagaye paralelnoyi obrobki j tomu najkrashe pidhodit dlya takih platform yak bezdrotovi sensorni merezhi merezhni obchislennya ta GPZP Iyerarhichna chasova pam yat Dokladnishe Iyerarhichna chasova pam yat Iyerarhichna chasova pam yat IChP angl hierarchical temporal memory HTM modelyuye deyaki strukturni ta algoritmichni vlastivosti novoyi kori IChP biomimetichna model sho gruntuyetsya na teoriyi pam yati peredbachuvannya IChP ce metod dlya viyavlyannya ta visnovuvannya visokorivnevih prichin sposterezhuvanih vhidnih obraziv ta poslidovnostej i vidtak pobudovi dedali skladnishoyi modeli svitu IChP poyednuye nayavni ideyi shobi imituvati novu koru prostoyu konstrukciyeyu yaka proponuye bagato mozhlivostej IChP poyednuye ta rozshiryuye pidhodi vikoristovuvani v bayesovih merezhah algoritmah prostorovogo ta chasovogo klasteruvannya vikoristovuyuchi pri comu derevopodibnu iyerarhiyu vuzliv poshirenu v nejronnih merezhah Golografichna asociativna pam yat Dokladnishe en Golografichna asociativna pam yat GAP angl Holographic Associative Memory HAM ce analogova korelyacijna asociativna sistema stimul vidguk Informaciya vidobrazhayetsya na fazove spryamuvannya kompleksnih chisel Cya pam yat efektivna dlya zavdan asociativnogo zapam yatovuvannya uzagalnyuvannya ta rozpiznavannya obraziv zi zminnoyu uvagoyu Dinamichna lokalizaciya poshuku ye centralnoyu dlya biologichnoyi pam yati Pri zorovomu sprijnyatti lyudi zoseredzhuyutsya na konkretnih ob yektah v obrazi Lyudi mozhut zminyuvati zoseredzhennya z ob yekta na ob yekt bez navchannya GAP mozhe imituvati cyu zdatnist stvoryuyuchi yavni podannya dlya zoseredzhuvannya Vona vikoristovuye bimodalne podannya obraza ta shozhij na gologramu kompleksnij sferichnij vagovij prostir staniv GAM korisni dlya optichnogo vtilyuvannya oskilki gipersferichni obchislennya v yihnij osnovi mozhlivo vtilyuvati za dopomogoyu optichnih obchislen Pov yazani z DKChP diferencijovni strukturi pam yati Okrim dovgoyi korotkochasnoyi pam yati DKChP inshi pidhodi takozh dodali diferencijovnu pam yat do rekurentnih funkcij Napriklad Diferencijovni diyi proshtovhuvannya ta vishtovhuvannya dlya merezh alternativnoyi pam yati zvani nejronnimi stekovimi mashinami angl neural stack machines Merezhi pam yati v yakih zovnishnye diferencijovne shovishe kerivnoyi merezhi znahoditsya u shvidkih vagah inshoyi merezhi Zabuvalni ventili DKChP Avtoreferentni RNM z osoblivimi vuzlami vihodu dlya adresuvannya ta shvidkogo manipulyuvannya vlasnimi vagami RNM na diferencijovnij manir vnutrishnye shovishe Navchannya peretvorennya z neobmezhenoyu pam yattyu Nejronni mashini Tyuringa Dokladnishe Nejronna mashina Tyuringa Nejronni mashini Tyuringa NMT angl neural Turing machines sparovuyut merezhi DKChP iz zovnishnimi resursami pam yati z yakimi voni mozhut vzayemodiyati za dopomogoyu procesiv uvagi angl attentional processes Cya zv yazana sistema analogichna mashini Tyuringa ale diferenciyuyetsya naskrizno sho dozvolyaye efektivno trenuvati yiyi gradiyentnim spuskom Poperedni rezultati pokazuyut sho nejronni mashini Tyuringa mozhut visnovuvati z prikladiv vhodu ta vihodu prosti algoritmi taki yak kopiyuvannya vporyadkovuvannya ta asociativne prigaduvannya en angl differentiable neural computers DNC ce rozshirennya NMT Na zadachah obrobki poslidovnostej voni perevershili nejronni mashini Tyuringa sistemi dovgoyi korotkochasnoyi pam yati ta merezhi z pam yattyu Semantichne geshuvannya Pidhodi yaki podayut poperednij dosvid bezposeredno i vikoristovuyut shozhij dosvid dlya formuvannya lokalnoyi modeli chasto nazivayut metodami najblizhchogo susida abo k najblizhchih susidiv V semantichnomu geshuvanni angl semantic hashing korisne gliboke navchannya de z velikogo naboru dokumentiv otrimuyut gliboku grafovu model vektoriv kilkostej sliv Dokumenti vidobrazhuyutsya na komirki pam yati takim chinom sho semantichno shozhi dokumenti roztashovuyutsya za blizkimi adresami Potim dokumenti shozhi na dokument iz zapitu mozhlivo znahoditi shlyahom prostogo dostupu do vsih adres sho vidriznyayutsya vid adresi dokumenta iz zapitu lishe kilkoma bitami Na vidminu vid en sho operuye 1000 bitnimi adresami semantichne geshuvannya pracyuye na 32 abo 64 bitnih adresah sho zustrichayutsya v tradicijnij komp yuternij arhitekturi Vkazivnikovi merezhi Gliboki nejronni merezhi mozhlivo potencijno polipshuvati pogliblennyam ta skorochennyam parametriv za zberezhennya zdatnosti do trenuvannya V toj chas yak trenuvannya nadzvichajno glibokih napriklad zavglibshki v miljon shariv nejronnih merezh mozhe buti nepraktichnim CP podibni arhitekturi taki yak vkazivnikovi merezhi angl pointer networks ta nejronni mashini z dovilnim dostupom angl neural random access machines dolayut ce obmezhennya zavdyaki zastosuvannyu zovnishnoyi pam yati z dovilnim dostupom ta inshih skladovih sho zazvichaj nalezhat do komp yuternoyi arhitekturi takih yak registri ALP ta vkazivniki Taki sistemi pracyuyut na vektorah rozpodiliv imovirnostej sho zberigayutsya v komirkah pam yati ta registrah Takim chinom cya model povnistyu diferencijovna j trenuyetsya z krayu v kraj Klyuchovoyu harakteristikoyu cih modelej ye te sho yihnya glibina rozmir yihnoyi korotkochasnoyi pam yati ta chislo parametriv mozhlivo zminyuvati nezalezhno GibridiKoduvalno dekoduvalni merezhi Koduvalno dekoduvalni sistemi angl encoder decoder frameworks gruntuyutsya na nejronnih merezhah sho vidobrazhuyut visokostrukturovanij vhid na visokostrukturovanij vihid Cej pidhid vinik u konteksti mashinnogo perekladu de vhid ta vihid ye pisanimi rechennyami dvoma prirodnimi movami V tij praci vikoristovuvali RNM abo ZNM DKChP yak koduvalnik dlya otrimannya zvedennya pro vhidne rechennya i ce zvedennya dekoduvali umovnoyu RNM modellyu movi dlya produkuvannya perekladu Dlya cih sistem ye spilnimi budivelni bloki ventilni angl gated RNM ta ZNM i trenovani mehanizmi uvagi Inshi tipiMittyevo trenovani en MTNN angl Instantaneously trained neural networks ITNN buli nathneni yavishem korotkochasnogo navchannya angl short term learning yake zdayetsya vidbuvayetsya mittyevo U cih merezhah vagi prihovanogo sharu ta sharu vihodu vidobrazhayutsya bezposeredno z danih trenuvalnogo vektora Zazvichaj voni pracyuyut z dvijkovimi danimi ale isnuyut versiyi j dlya neperervnih danih yaki potrebuyut nevelikoyi dodatkovoyi obrobki Spajkovi en SNM angl spiking neural networks SNN yavno vrahovuyut hronometrazh vhidnih danih Vhid ta vihid ciyeyi merezhi zazvichaj podano u viglyadi ryadiv spajkiv delta funkciyi abo skladnishogo viglyadu SNM mozhe obroblyati informaciyu v chasovij oblasti signaliv yaki zminyuyutsya v chasi Yih chasto vtilyuyut yak rekurentni merezhi SNM takozh ye odnim iz vidiv en Spajkovi nejronni merezhi z zatrimkami aksonalnoyi providnosti demonstruyut polihronizaciyu i vidtak mozhut mati duzhe veliku yemnist pam yati SNM ta chasovi korelyaciyi nejronnih zbirok u takih merezhah vikoristovuvali dlya modelyuvannya podilu figur tla ta z yednuvannya oblastej u zorovij sistemi Prostorovi Dokladnishe en Prostorovi nejronni merezhi PNM angl spatial neural networks SNN stanovlyat nadkategoriyu specializovanih nejronnih merezh NM dlya podavannya ta peredbachuvannya geografichnih yavish Voni zagalom pokrashuyut yak statistichnu tochnist tak i nadijnist a prostorovih klasichnih NM koli obroblyayut geoprostorovi nabori danih a takozh inshih prostorovih statistichnih modelej napriklad prostorovih regresijnih modelej koli zminni cih geoprostorovih naboriv danih opisuyut nelinijni zv yazki Prikladami PNM ye porostorovi nejronni merezhi OSFA SVANN ta GWNN Neokognitron Neokognitron angl neocognitron ce iyerarhichna bagatosharova merezha zmodelovana na osnovi zorovoyi kori Vin vikoristovuye kilka tipiv vuzliv pervinno dva zvani en angl simple ta en angl complex klitinami yak kaskadnu model dlya vikoristannya v zadachah rozpiznavannya obraziv Lokalni oznaki vidilyayut S klitini deformaciyu yakih dopuskayut C klitini Lokalni oznaki u vhodi postupovo integruyutsya ta klasifikuyutsya na vishih sharah Sered riznih vidiv neokognitroniv ye sistemi yaki mozhut viyavlyati dekilka obraziv v odnomu vhodi za dopomogoyu zvorotnogo poshirennya dlya dosyagnennya en Jogo vikoristovuvali dlya zavdan rozpiznavannya obraziv vin nadihnuv zgortkovi nejronni merezhi Zmishani iyerarhichno gliboki modeli Zmishani iyerarhichno gliboki modeli angl compound hierarchical deep models komponuyut gliboki merezhi z neparametrichnimi bayesovimi modelyami Oznak mozhlivo navchatisya iz zastosuvannyam takih glibokih arhitektur yak GMP gliboki mashini Bolcmana GMB gliboki avtokoduvalniki zgortkovi varianti ppOMB gliboki koduvalni merezhi GMP z rozridzhenim navchannyam oznak RNM umovni GMP zneshumlyuvalni avtokoduvalniki Ce zabezpechuye krashe podannya shvidshe navchannya ta tochnishe klasifikuvannya z danimi visokoyi vimirnosti Prote ci arhitekturi slabki v navchanni novovvedenih klasiv na kilkoh prikladah oskilki vsi vuzli merezhi zalucheno do podannya vhodu rozpodilene podannya i musit buti pidlashtovuvano razom visokij stupin svobodi Obmezhennya stupenyu svobodi znizhuye kilkist parametriv dlya navchannya dopomagayuchi navchannyu novih klasiv z kilkoh prikladiv Iyerarhichni bayesovi IB modeli dozvolyayut navchatisya z kilkoh prikladiv napriklad dlya komp yuternogo bachennya statistiki ta kognitivnoyi nauki Zmishani IG arhitekturi mayut na meti poyednannya harakteristik yak IB tak i glibokih merezh Zmishana arhitektura IPD GMB ce en IPD angl hierarchical Dirichlet process HDP yak iyerarhichna model sho vklyuchaye arhitekturu GMB Ce povna porodzhuvalna model uzagalnyuvana z abstraktnih ponyat sho techut kriz shari ciyeyi modeli zdatna sintezuvati novi prikladi novovvedenih klasiv sho viglyadayut dosit prirodno Vsih rivniv navchayutsya spilno zvedennyam do maksimumu funkciyi vnesku spilnoyi logarifmichnoyi jmovirnosti U GMB z troma prihovanimi sharami jmovirnist vidimogo vhodu n stanovit p n ps 1 Z h exp i j W i j 1 n i h j 1 j ℓ W j ℓ 2 h j 1 h ℓ 2 ℓ m W ℓ m 3 h ℓ 2 h m 3 displaystyle p boldsymbol nu psi frac 1 Z sum h exp left sum ij W ij 1 nu i h j 1 sum j ell W j ell 2 h j 1 h ell 2 sum ell m W ell m 3 h ell 2 h m 3 right de h h 1 h 2 h 3 displaystyle boldsymbol h boldsymbol h 1 boldsymbol h 2 boldsymbol h 3 nabir prihovanih vuzliv a ps W 1 W 2 W 3 displaystyle psi boldsymbol W 1 boldsymbol W 2 boldsymbol W 3 parametri modeli sho podayut umovi simetrichnoyi vzayemodiyi vidimi prihovani ta prihovani prihovani Navchena model GMB ce neoriyentovana model yaka viznachaye spilnij rozpodil P n h 1 h 2 h 3 displaystyle P nu h 1 h 2 h 3 Odnim zi sposobiv virazhennya navchenogo ye umovna model P n h 1 h 2 h 3 displaystyle P nu h 1 h 2 mid h 3 ta apriornij chlen P h 3 displaystyle P h 3 Tut P n h 1 h 2 h 3 displaystyle P nu h 1 h 2 mid h 3 podaye umovnu model GMB yaku mozhlivo rozglyadati yak dvosharovu GMB ale z chlenami zmishennya zadanimi stanami h 3 displaystyle h 3 P n h 1 h 2 h 3 1 Z ps h 3 exp i j W i j 1 n i h j 1 j ℓ W j ℓ 2 h j 1 h ℓ 2 ℓ m W ℓ m 3 h ℓ 2 h m 3 displaystyle P nu h 1 h 2 mid h 3 frac 1 Z psi h 3 exp left sum ij W ij 1 nu i h j 1 sum j ell W j ell 2 h j 1 h ell 2 sum ell m W ell m 3 h ell 2 h m 3 right Gliboki peredbachuvalni koduvalni merezhi Gliboka peredbachuvalna koduvalna merezha GPKM angl deep predictive coding network DPCN ce peredbachuvalna shema koduvannya sho vikoristovuye spadnu angl top down informaciyu dlya empirichnogo pidlashtovuvannya apriornih neobhidnih dlya proceduri vishidnogo angl bottom up visnovuvannya zasobami glibokoyi lokalno z yednanoyi porodzhuvalnoyi modeli Ce pracyuye shlyahom vidilyannya rozridzhenih oznak zi sposterezhen sho zminyuyutsya v chasi iz zastosuvannyam linijnoyi dinamichnoyi modeli Potim dlya navchannya invariantnih podan oznak zastosovuyetsya strategiya agreguvannya angl pooling Ci bloki komponuyutsya shobi sformuvati gliboku arhitekturu i trenuyutsya zhadibnim posharovim nekerovanim navchannyam Shari utvoryuyut shos na zrazok markovskogo lancyuga takogo sho stani na bud yakomu shari zalezhat lishe vid nastupnogo ta poperednogo shariv GPKM peredbachuyut podannya sharu vikoristovuyuchi spadnij pidhid iz zastosuvannyam informaciyi z vishogo sharu ta chasovih zalezhnostej vid poperednih staniv GPKM mozhlivo rozshiryuvati takim chinom shobi utvoryuvati zgortkovu merezhu Bagatosharova yadrova mashina Bagatosharovi yadrovi mashini BYaM angl Multilayer Kernel Machine MKM ce sposib navchannya visokonelinijnih funkcij za dopomogoyu iterativnogo zastosuvannya slabko nelinijnih yader Voni vikoristovuyut en YaMGK angl kernel principal component analysis KPCA yak metod dlya zhadibnogo posharovogo peredtrenuvalnogo kroku glibokogo nekerovanogo navchannya ℓ 1 displaystyle ell 1 j shar navchayetsya podannya poperednogo sharu ℓ displaystyle ell vidilyayuchi n l displaystyle n l golovnih komponent GK angl principal component PC vihodu proyekcijnogo sharu l displaystyle l v oblasti oznak sho vivodit yadro Shobi znizhuvati rozmirnist utochnenogo podannya na kozhnomu shari kerovana strategiya obiraye najinformativnishi sered oznak vidilenih YaMGK Proces takij vishikuvati n ℓ displaystyle n ell oznak vidpovidno do yihnoyi vzayemnoyi informaciyi z mitkami klasiv dlya riznih znachen K ta m ℓ 1 n ℓ displaystyle m ell in 1 ldots n ell obchisliti riven pohibki klasifikaciyi metodom k najblizhchih susidiv k NS angl K nearest neighbor K NN vikoristovuyuchi lishe m l displaystyle m l najinformativnishih oznak na zatverdzhuvalnomu nabori znachennya m ℓ displaystyle m ell z yakim klasifikator dosyag najnizhchogo rivnya pohibki viznachaye chislo oznak yaki potribno zberegti Metod YaMGK yak budivelni bloki dlya BYaM suprovodzhuyut deyaki nedoliki Dlya rozuminnya usnogo movlennya rozrobili prostishij sposib zastosuvannya yadrovih mashin dlya glibokogo navchannya Golovna ideya polyagaye u vikoristanni yadrovoyi mashini dlya nablizhennya neglibokoyi nejronnoyi merezhi z neskinchennim chislom prihovanih vuzliv i podalshomu zastosuvanni glibokoyi skladalnoyi merezhi dlya zroshuvannya vihodu ciyeyi yadrovoyi mashini ta sirogo vhodu pri pobudovi nastupnogo vishogo rivnya yadrovoyi mashini Chislo rivniv u cij glibokij opuklij merezhi ye giperparametrom sistemi v cilomu yakij povinen viznachatisya perehresnim zatverdzhuvannyam Div takozh en Avtokoduvalnik en Bagatosharovij perceptron en Blue Brain Genetichnij algoritm en Dereva rishen Ekspertna sistema Imitaciya vidpalu en Linijnij rozdilyuvalnij analiz Logistichna regresiya Metod golovnih komponent Metod royu chastok Nejroevolyuciya en angl NEAT Nejronna merezha z chasovoyu zatrimkoyu Nejronnij gaz en en mikroprocesor en en Sistolichnij masiv en Shtuchne zhittyaPrimitkiUniversity Of Southern California 16 chervnya 2004 Gray Matters New Clues Into How Neurons Process Information ScienceDaily angl Citata Divno sho pislya sotni rokiv suchasnih nejronaukovih doslidzhen mi dosi ne znayemo bazovih funkcij obrobki informaciyi nejronom zaznachiv Barlett Mel Weizmann Institute of Science 2 kvitnya 2007 It s Only A Game Of Chance Leading Theory Of Perception Called Into Question ScienceDaily angl Citata Pochinayuchi z 1980 h rokiv bagato nejrobiologiv virili sho voni volodiyut klyuchem do togo yak nareshti pochati rozumiti robotu mozku Ale mi nadali perekonlivi svidchennya togo sho mozok mozhe ne koduvati informaciyu za dopomogoyu tochnih modelej diyalnosti University Of California Los Angeles 14 grudnya 2004 UCLA Neuroscientist Gains Insights Into Human Brain From Study Of Marine Snail ScienceDaily angl Citata Nasha robota peredbachaye sho mozkovi mehanizmi dlya formuvannya takogo rodu asociacij mozhut buti nadzvichajno podibnimi u ravlikiv i vishih organizmiv Mi ne povnistyu rozumiyemo navit duzhe prosti vidi navchannya u cih tvarin Yale University 13 kvitnya 2006 Brain Communicates In Analog And Digital Modes Simultaneously ScienceDaily angl Citata Makkormik skazav sho majbutni doslidzhennya ta modeli roboti nejroniv u mozku povinni vrahovuvati zmishanu analogovo cifrovu prirodu zv yazku Lishe zavdyaki glibokomu rozuminnyu cogo zmishanogo sposobu peredachi signalu mozhna dosyagti dijsno glibokogo rozuminnya mozku ta jogo rozladiv skazav vin Ivakhnenko Alexey Grigorevich 1968 The group method of data handling a rival of the method of stochastic approximation Soviet Automatic Control angl 13 3 43 55 Ivakhnenko A G 1971 Polynomial Theory of Complex Systems IEEE Transactions on Systems Man and Cybernetics angl 1 4 364 378 doi 10 1109 TSMC 1971 4308320 S2CID 17606980 Kondo T Ueno J 2008 Multi layered GMDH type neural network self selecting optimum neural network architecture and its application to 3 dimensional medical image recognition of blood vessels International Journal of Innovative Computing Information and Control angl 4 1 175 187 Bengio Y 15 listopada 2009 Learning Deep Architectures for AI PDF Foundations and Trends in Machine Learning angl 2 1 1 127 CiteSeerX 10 1 1 701 9550 doi 10 1561 2200000006 ISSN 1935 8237 S2CID 207178999 Liou Cheng Yuan 2008 Modeling word perception using the Elman network PDF Neurocomputing angl 71 16 18 3150 3157 doi 10 1016 j neucom 2008 04 030 Liou Cheng Yuan 2014 Autoencoder for words Neurocomputing angl 139 84 96 doi 10 1016 j neucom 2013 09 055 Diederik P Kingma Welling Max 2013 Auto Encoding Variational Bayes angl arXiv 1312 6114 stat ML Boesen A Larsen L Sonderby S K 2015 Generating Faces with Torch angl Competitive probabilistic neural network PDF Download Available ResearchGate angl Procitovano 16 bereznya 2017 angl Arhiv originalu za 18 grudnya 2010 Procitovano 22 bereznya 2012 Cheung Vincent Cannons Kevin 10 chervnya 2002 PDF Probabilistic and Statistical Inference Group angl Arhiv originalu PDF za 31 sichnya 2012 Procitovano 22 bereznya 2012 angl Arhiv originalu za 22 bereznya 2017 Procitovano 30 lipnya 2023 glava z internetposibnika de Zhang Wei 1990 Parallel distributed processing model with local space invariant interconnections and its optical architecture Applied Optics angl 29 32 4790 7 Bibcode 1990ApOpt 29 4790Z doi 10 1364 ao 29 004790 PMID 20577468 Zhang Wei 1988 Shift invariant pattern recognition neural network and its optical architecture Proceedings of Annual Conference of the Japan Society of Applied Physics angl Weng J Ahuja N Huang T S traven 1993 Learning recognition and segmentation of 3 D objects from 2 D images PDF 4th International Conf Computer Vision angl Berlin Germany s 121 128 Fukushima K 1980 Neocognitron A self organizing neural network model for a mechanism of pattern recognition unaffected by shift in position Biol Cybern angl 36 4 193 202 doi 10 1007 bf00344251 PMID 7370364 S2CID 206775608 LeCun Yann LeNet 5 convolutional neural networks angl Procitovano 16 listopada 2013 DeepLearning 0 1 angl LISA Lab Arhiv originalu za 28 grudnya 2017 Procitovano 31 serpnya 2013 LeCun ta in 1989 Backpropagation Applied to Handwritten Zip Code Recognition Neural Computation angl 1 541 551 LeCun Yann 2016 Slides on Deep Learning Online angl Unsupervised Feature Learning and Deep Learning Tutorial ufldl stanford edu angl Hinton Geoffrey E Krizhevsky Alex Wang Sida D 2011 Transforming Auto Encoders Artificial Neural Networks and Machine Learning ICANN 2011 Lecture Notes in Computer Science angl t 6791 Springer s 44 51 CiteSeerX 10 1 1 220 5099 doi 10 1007 978 3 642 21735 7 6 ISBN 9783642217340 S2CID 6138085 Szegedy Christian Liu Wei Jia Yangqing Sermanet Pierre Reed Scott E Anguelov Dragomir Erhan Dumitru Vanhoucke Vincent Rabinovich Andrew 2015 Going deeper with convolutions IEEE Conference on Computer Vision and Pattern Recognition CVPR 2015 Boston MA USA June 7 12 2015 angl IEEE Computer Society s 1 9 arXiv 1409 4842 doi 10 1109 CVPR 2015 7298594 Ran Lingyan Zhang Yanning Zhang Qilin Yang Tao 12 chervnya 2017 Convolutional Neural Network Based Robot Navigation Using Uncalibrated Spherical Images PDF Sensors angl 17 6 1341 Bibcode 2017Senso 17 1341R doi 10 3390 s17061341 ISSN 1424 8220 PMC 5492478 PMID 28604624 van den Oord Aaron Dieleman Sander Schrauwen Benjamin 1 sichnya 2013 Burges C J C Bottou L Welling M Ghahramani Z Weinberger K Q red Deep content based music recommendation PDF angl Curran Associates s 2643 2651 Collobert Ronan Weston Jason 1 sichnya 2008 A unified architecture for natural language processing Proceedings of the 25th international conference on Machine learning ICML 08 angl New York NY USA ACM s 160 167 doi 10 1145 1390156 1390177 ISBN 978 1 60558 205 4 S2CID 2617020 Deng Li Yu Dong Platt John 2012 PDF 2012 IEEE International Conference on Acoustics Speech and Signal Processing ICASSP angl s 2133 2136 doi 10 1109 ICASSP 2012 6288333 ISBN 978 1 4673 0046 9 S2CID 16171497 Arhiv originalu PDF za 4 bereznya 2016 Procitovano 30 lipnya 2023 Deng Li Yu Dong 2011 Deep Convex Net A Scalable Architecture for Speech Pattern Classification PDF Proceedings of the Interspeech angl 2285 2288 doi 10 21437 Interspeech 2011 607 S2CID 36439 David Wolpert 1992 Stacked generalization Neural Networks angl 5 2 241 259 CiteSeerX 10 1 1 133 8090 doi 10 1016 S0893 6080 05 80023 1 Hutchinson Brian Deng Li Yu Dong 2012 Tensor deep stacking networks IEEE Transactions on Pattern Analysis and Machine Intelligence angl 1 15 8 1944 1957 doi 10 1109 tpami 2012 268 PMID 23267198 S2CID 344385 Hinton Geoffrey Salakhutdinov Ruslan 2006 Reducing the Dimensionality of Data with Neural Networks Science angl 313 5786 504 507 Bibcode 2006Sci 313 504H doi 10 1126 science 1127647 PMID 16873662 S2CID 1658773 Dahl G Yu D Deng L Acero A 2012 Context Dependent Pre Trained Deep Neural Networks for Large Vocabulary Speech Recognition IEEE Transactions on Audio Speech and Language Processing angl 20 1 30 42 CiteSeerX 10 1 1 227 8990 doi 10 1109 tasl 2011 2134090 S2CID 14862572 Mohamed Abdel rahman Dahl George Hinton Geoffrey 2012 Acoustic Modeling Using Deep Belief Networks IEEE Transactions on Audio Speech and Language Processing angl 20 1 14 22 CiteSeerX 10 1 1 338 2670 doi 10 1109 tasl 2011 2109382 S2CID 9530137 Achler T Omar C Amir E 2008 Shedding Weights More With Less International Joint Conference on Neural Networks angl Hinton G E 2009 Deep belief networks Scholarpedia angl 4 5 5947 Bibcode 2009SchpJ 4 5947H doi 10 4249 scholarpedia 5947 Larochelle Hugo Erhan Dumitru Courville Aaron Bergstra James Bengio Yoshua 2007 An empirical evaluation of deep architectures on problems with many factors of variation Proceedings of the 24th international conference on Machine learning ICML 07 angl New York NY USA ACM s 473 480 CiteSeerX 10 1 1 77 3242 doi 10 1145 1273496 1273556 ISBN 9781595937933 S2CID 14805281 Werbos P J 1988 Generalization of backpropagation with application to a recurrent gas market model Neural Networks angl 1 4 339 356 doi 10 1016 0893 6080 88 90007 x Rumelhart David E Hinton Geoffrey E Williams Ronald J Learning Internal Representations by Error Propagation Zvit angl S2CID 62245742 Robinson A J Fallside F 1987 The utility driven dynamic error propagation network Technical Report CUED F INFENG TR 1 PDF Zvit angl Cambridge University Engineering Department Williams R J Zipser D 1994 Gradient based learning algorithms for recurrent networks and their computational complexity PDF Back propagation Theory Architectures and Applications angl Hillsdale NJ Erlbaum S2CID 14792754 Schmidhuber J 1989 A local learning algorithm for dynamic feedforward and recurrent networks Connection Science angl 1 4 403 412 doi 10 1080 09540098908915650 S2CID 18721007 Principe J C Euliano N R Lefebvre W C Neural and Adaptive Systems Fundamentals through Simulation angl Schmidhuber J 1992 A fixed size storage O n3 time complexity learning algorithm for fully recurrent continually running networks Neural Computation angl 4 2 243 248 doi 10 1162 neco 1992 4 2 243 S2CID 11761172 Williams R J 1989 Complexity of exact gradient computation algorithms for recurrent neural networks Technical Report Technical Report NU CCS 89 27 Zvit angl Boston Northeastern University College of Computer Science Pearlmutter B A 1989 Learning state space trajectories in recurrent neural networks PDF Neural Computation angl 1 2 263 269 doi 10 1162 neco 1989 1 2 263 S2CID 16813485 Hochreiter S 1991 Untersuchungen zu dynamischen neuronalen Netzen Diplomna robota Diploma nim Munich Institut f Informatik Technische Univ Hochreiter S Bengio Y Frasconi P Schmidhuber J 2001 Gradient flow in recurrent nets the difficulty of learning long term dependencies PDF U Kremer S C Kolen J F red A Field Guide to Dynamical Recurrent Neural Networks angl IEEE Press Hochreiter S Schmidhuber J 1997 Long short term memory Neural Computation angl 9 8 1735 1780 doi 10 1162 neco 1997 9 8 1735 PMID 9377276 S2CID 1915014 Cruse Holk Neural Networks as Cybernetic Systems PDF angl vid 2nd and revised Schrauwen Benjamin Verstraeten David Campenhout Jan Van 2007 An overview of reservoir computing theory applications and implementations European Symposium on Artificial Neural Networks ESANN angl s 471 482 Mass Wolfgang Nachtschlaeger T Markram H 2002 Real time computing without stable states A new framework for neural computation based on perturbations Neural Computation angl 14 11 2531 2560 doi 10 1162 089976602760407955 PMID 12433288 S2CID 1045112 Echo state network Scholarpedia angl Jaeger H Harnessing 2004 Predicting chaotic systems and saving energy in wireless communication Science angl 304 5667 78 80 Bibcode 2004Sci 304 78J CiteSeerX 10 1 1 719 2301 doi 10 1126 science 1091277 PMID 15064413 S2CID 2184251 Gers F A Schmidhuber J 2001 LSTM recurrent networks learn simple context free and context sensitive languages IEEE Transactions on Neural Networks angl 12 6 1333 1340 Graves A Schmidhuber J 2009 Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks PDF Advances in Neural Information Processing Systems 22 NIPS 22 angl Vancouver MIT Press s 545 552 Schuster Mike Paliwal Kuldip K 1997 Bidirectional recurrent neural networks IEEE Transactions on Signal Processing angl 45 11 2673 2681 Bibcode 1997ITSP 45 2673S CiteSeerX 10 1 1 331 9441 doi 10 1109 78 650093 S2CID 18375389 Graves A Schmidhuber J 2005 Framewise phoneme classification with bidirectional LSTM and other neural network architectures Neural Networks angl 18 5 6 602 610 CiteSeerX 10 1 1 331 5800 doi 10 1016 j neunet 2005 06 042 PMID 16112549 S2CID 1856462 Schmidhuber J 1992 Learning complex extended sequences using the principle of history compression Neural Computation angl 4 2 234 242 doi 10 1162 neco 1992 4 2 234 S2CID 18271205 PDF angl Arhiv originalu PDF za 18 lipnya 2011 Procitovano 12 lipnya 2010 Associative Neural Network www vcclab org angl Procitovano 17 chervnya 2017 Anderson James A Rosenfeld Edward 2000 Talking Nets An Oral History of Neural Networks angl MIT Press ISBN 9780262511117 Fahlman Scott E Lebiere Christian 29 serpnya 1991 PDF angl Carnegie Mellon University Arhiv originalu PDF za 3 travnya 2013 Procitovano 4 zhovtnya 2014 Schmidhuber Juergen 2014 Memory Networks angl arXiv 1410 3916 cs AI Schmidhuber Juergen 2015 End To End Memory Networks angl arXiv 1503 08895 cs NE Schmidhuber Juergen 2015 Large scale Simple Question Answering with Memory Networks angl arXiv 1506 02075 cs LG Hinton Geoffrey E 1984 angl Arhiv originalu za 2 travnya 2016 Nasution B B Khan A I February 2008 A Hierarchical Graph Neuron Scheme for Real Time Pattern Recognition IEEE Transactions on Neural Networks angl 19 2 212 229 doi 10 1109 TNN 2007 905857 PMID 18269954 S2CID 17573325 Sutherland John G 1 sichnya 1990 A holographic model of memory learning and expression International Journal of Neural Systems angl 01 3 259 267 doi 10 1142 S0129065790000163 Das S Giles C L Sun G Z 1992 Learning Context Free Grammars Limitations of a Recurrent Neural Network with an External Stack Memory 14th Annual Conf of the Cog Sci Soc angl s 79 Mozer M C Das S 1993 Advances in Neural Information Processing Systems angl 5 863 870 Arhiv originalu za 6 grudnya 2019 Procitovano 25 serpnya 2019 Schmidhuber J 1992 Learning to control fast weight memories An alternative to recurrent nets Neural Computation angl 4 1 131 139 doi 10 1162 neco 1992 4 1 131 S2CID 16683347 Gers F Schraudolph N Schmidhuber J 2002 Learning precise timing with LSTM recurrent networks PDF JMLR angl 3 115 143 Jurgen Schmidhuber 1993 An introspective network that can learn to run its own weight change algorithm Proceedings of the International Conference on Artificial Neural Networks Brighton angl IEE s 191 195 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Obslugovuvannya CS1 Storinki z parametrom url status ale bez parametra archive url posilannya Hochreiter Sepp Younger A Steven Conwell Peter R 2001 Learning to Learn Using Gradient Descent ICANN angl 2130 87 94 CiteSeerX 10 1 1 5 323 Schmidhuber Juergen 2015 Learning to Transduce with Unbounded Memory angl arXiv 1506 02516 cs NE Schmidhuber Juergen 2014 Neural Turing Machines angl arXiv 1410 5401 cs NE Burgess Matt DeepMind s AI learned to ride the London Underground using human like reason and memory WIRED UK angl Procitovano 19 zhovtnya 2016 DeepMind AI Learns to Navigate London Tube PCMAG angl Procitovano 19 zhovtnya 2016 Mannes John 13 zhovtnya 2016 DeepMind s differentiable neural computer helps you navigate the subway with its memory TechCrunch angl Procitovano 19 zhovtnya 2016 Graves Alex Wayne Greg Reynolds Malcolm Harley Tim Danihelka Ivo Grabska Barwinska Agnieszka Colmenarejo Sergio Gomez Grefenstette Edward Ramalho Tiago 12 zhovtnya 2016 Hybrid computing using a neural network with dynamic external memory Nature angl 538 7626 471 476 Bibcode 2016Natur 538 471G doi 10 1038 nature20101 ISSN 1476 4687 PMID 27732574 S2CID 205251479 Differentiable neural computers DeepMind DeepMind angl 12 zhovtnya 2016 Procitovano 19 zhovtnya 2016 Atkeson Christopher G Schaal Stefan 1995 Memory based neural networks for robot learning Neurocomputing angl 9 3 243 269 doi 10 1016 0925 2312 95 00033 6 Salakhutdinov Ruslan Hinton Geoffrey 2009 Semantic hashing PDF International Journal of Approximate Reasoning angl 50 7 969 978 Le Quoc V Mikolov Tomas 2014 Distributed representations of sentences and documents angl arXiv 1405 4053 cs CL Schmidhuber Juergen 2015 Pointer Networks angl arXiv 1506 03134 stat ML Schmidhuber Juergen 2015 Neural Random Access Machines angl arXiv 1511 06392 cs LG Kalchbrenner N Blunsom P 2013 Recurrent continuous translation models EMNLP 2013 angl s 1700 1709 Sutskever I Vinyals O Le Q V 2014 Sequence to sequence learning with neural networks PDF Twenty eighth Conference on Neural Information Processing Systems angl arXiv 1409 3215 Schmidhuber Juergen 2014 Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation angl arXiv 1406 1078 cs CL Schmidhuber Juergen Courville Aaron Bengio Yoshua 2015 Describing Multimedia Content using Attention based Encoder Decoder Networks IEEE Transactions on Multimedia angl 17 11 1875 1886 arXiv 1507 01053 Bibcode 2015arXiv150701053C doi 10 1109 TMM 2015 2477044 S2CID 1179542 Gerstner Kistler icwww epfl ch angl Arhiv originalu za 4 chervnya 2017 Procitovano 18 chervnya 2017 vilno dostupnij internetpidruchnik Izhikevich EM February 2006 Polychronization computation with spikes Neural Computation angl 18 2 245 82 doi 10 1162 089976606775093882 PMID 16378515 S2CID 14253998 Morer I Cardillo A Diaz Guilera A Prignano L Lozano S 2020 Comparing spatial networks a one size fits all efficiency driven approach Physical Review angl 101 4 042301 doi 10 1103 PhysRevE 101 042301 hdl 2445 161417 PMID 32422764 S2CID 49564277 Gupta J Molnar C Xie Y Knight J Shekhar S 2021 Spatial variability aware deep neural networks SVANN a general approach ACM Transactions on Intelligent Systems and Technology angl 12 6 1 21 doi 10 1145 3466688 S2CID 244786699 Hagenauer J Helbich M 2022 A geographically weighted artificial neural network International Journal of Geographical Information Science angl 36 2 215 235 doi 10 1080 13658816 2021 1871618 S2CID 233883395 David H Hubel and Torsten N Wiesel 2005 Brain and visual perception the story of a 25 year collaboration angl Oxford University Press s 106 ISBN 978 0 19 517618 6 Hubel DH Wiesel TN October 1959 Receptive fields of single neurones in the cat s striate cortex J Physiol angl 148 3 574 91 doi 10 1113 jphysiol 1959 sp006308 PMC 1363130 PMID 14403679 Fukushima 1987 s 83 Fukushima 1987 s 84 Fukushima 2007 Fukushima 1987 s 81 85 LeCun Yann Bengio Yoshua Hinton Geoffrey 2015 Deep learning Nature angl 521 7553 436 444 Bibcode 2015Natur 521 436L doi 10 1038 nature14539 PMID 26017442 S2CID 3074096 Hinton G E Osindero S Teh Y 2006 A fast learning algorithm for deep belief nets PDF en angl 18 7 1527 1554 CiteSeerX 10 1 1 76 1541 doi 10 1162 neco 2006 18 7 1527 PMID 16764513 S2CID 2309950 Hinton Geoffrey Salakhutdinov Ruslan 2009 PDF angl 3 448 455 Arhiv originalu PDF za 6 listopada 2015 Procitovano 25 serpnya 2019 Larochelle Hugo Bengio Yoshua Louradour Jerdme Lamblin Pascal 2009 Exploring Strategies for Training Deep Neural Networks The Journal of Machine Learning Research angl 10 1 40 Coates Adam Carpenter Blake 2011 Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning PDF angl 440 445 Lee Honglak Grosse Roger 2009 Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations Proceedings of the 26th Annual International Conference on Machine Learning angl s 609 616 CiteSeerX 10 1 1 149 6800 doi 10 1145 1553374 1553453 ISBN 9781605585161 S2CID 12008458 Courville Aaron Bergstra James Bengio Yoshua 2011 PDF Proceedings of the 28th International Conference on Machine Learning angl T 10 s 1 8 Arhiv originalu PDF za 4 bereznya 2016 Procitovano 25 serpnya 2019 Lin Yuanqing Zhang Tong Zhu Shenghuo Yu Kai 2010 Deep Coding Network Advances in Neural Information Processing Systems 23 NIPS 2010 angl T 23 s 1 9 Ranzato Marc Aurelio Boureau Y Lan 2007 PDF Advances in Neural Information Processing Systems angl 23 1 8 Arhiv originalu PDF za 4 bereznya 2016 Procitovano 25 serpnya 2019 Socher Richard Lin Clif 2011 PDF Proceedings of the 26th International Conference on Machine Learning angl Arhiv originalu PDF za 4 bereznya 2016 Procitovano 25 serpnya 2019 Taylor Graham Hinton Geoffrey 2006 PDF Advances in Neural Information Processing Systems angl Arhiv originalu PDF za 4 bereznya 2016 Procitovano 25 serpnya 2019 Vincent Pascal Larochelle Hugo 2008 Extracting and composing robust features with denoising autoencoders Proceedings of the 25th international conference on Machine learning ICML 08 angl s 1096 1103 CiteSeerX 10 1 1 298 4083 doi 10 1145 1390156 1390294 ISBN 9781605582054 S2CID 207168299 Kemp Charles Perfors Amy Tenenbaum Joshua 2007 Learning overhypotheses with hierarchical Bayesian models Developmental Science angl 10 3 307 21 CiteSeerX 10 1 1 141 5560 doi 10 1111 j 1467 7687 2007 00585 x PMID 17444972 Xu Fei Tenenbaum Joshua 2007 Word learning as Bayesian inference Psychol Rev angl 114 2 245 72 CiteSeerX 10 1 1 57 9649 doi 10 1037 0033 295X 114 2 245 PMID 17500627 Chen Bo Polatkan Gungor 2011 The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning PDF Proceedings of the 28th International Conference on International Conference on Machine Learning angl Omnipress s 361 368 ISBN 978 1 4503 0619 5 Fei Fei Li Fergus Rob 2006 One shot learning of object categories IEEE Transactions on Pattern Analysis and Machine Intelligence angl 28 4 594 611 CiteSeerX 10 1 1 110 9024 doi 10 1109 TPAMI 2006 79 PMID 16566508 S2CID 6953475 Rodriguez Abel Dunson David 2008 The Nested Dirichlet Process Journal of the American Statistical Association angl 103 483 1131 1154 CiteSeerX 10 1 1 70 9873 doi 10 1198 016214508000000553 S2CID 13462201 Ruslan Salakhutdinov Joshua Tenenbaum 2012 Learning with Hierarchical Deep Models IEEE Transactions on Pattern Analysis and Machine Intelligence angl 35 8 1958 71 CiteSeerX 10 1 1 372 909 doi 10 1109 TPAMI 2012 269 PMID 23787346 S2CID 4508400 Chalasani Rakesh Principe Jose 2013 Deep Predictive Coding Networks angl arXiv 1301 3541 cs LG Scholkopf B Smola Alexander 1998 Nonlinear component analysis as a kernel eigenvalue problem Neural Computation angl 44 5 1299 1319 CiteSeerX 10 1 1 53 8911 doi 10 1162 089976698300017467 S2CID 6674407 Cho Youngmin 2012 Kernel Methods for Deep Learning PDF angl 1 9 Deng Li Tur Gokhan He Xiaodong Hakkani Tur Dilek 1 grudnya 2012 Use of Kernel Deep Convex Networks and End To End Learning for Spoken Language Understanding Microsoft Research angl LiteraturaFukushima Kunihiko 1987 A hierarchical neural network model for selective attention U Eckmiller R Von der Malsburg C red Neural computers angl Springer Verlag s 81 90 Fukushima Kunihiko 2007 Neocognitron Scholarpedia angl 2 1 1717 Bibcode 2007SchpJ 2 1717F doi 10 4249 scholarpedia 1717