Капсульна нейронна мережа (англ. capsule neural network CapsNet) — це система машинного навчання, що являє собою тип штучної нейронної мережі (ANN), яку можна використовувати для кращого моделювання ієрархічних відносин. Цей підхід є спробою більш точно імітувати біологічну нейронну організацію.
Ідея полягає в тому, щоб додати структури, що називаються «капсули» до згорткової нейронної мережі (CNN) і повторно використовувати вихідні дані від декількох з цих капсул для формування більш стійких до різних шумів ознак для наступних капсул. Результат являє собою вектор, що складається з [en] та [en] для цього спостереження. Цей вектор подібний до того, що створюється, наприклад, під час виконання класифікації з локалізацією в згортковій нейронній мережі.
Серед інших переваг, капсульні мережі вирішують «проблему Пікассо» при розпізнаванні зображень: зображення, які мають усі правильні частини, але не знаходяться в правильному просторовому співвідношенні (наприклад, на «обличчі», міняються місцями рот та одне око). Для розпізнавання зображень використовується той факт, що хоча зміна точки спостереження має нелінійний вплив на рівні пікселів, але лінійні на рівні деталі/об'єкта. Це можна порівняти з інверсією відтворення об'єкта, що складається з декількох частин.
Історія
У 2000 році Джеффрі Гінтон та ін. описали систему візуалізації, яка поєднує сегментацію та розпізнавання в єдиний процес виведення з використанням дерев синтаксичного аналізу. Так звані мережі імовірності описують спільний розподіл за прихованими змінними та за можливими деревами синтаксичного аналізу. Ця система виявилася корисною в базі рукописних цифр MNIST.
Механізм динамічної маршрутизації для капсульних мереж був запропонований Гінтоном та його командою у 2017 році. Стверджувалося, що цей підхід зменшує рівень помилок у MNIST та зменшує розміри навчальних наборів. Стверджувалося, що результати були значно кращими, ніж CNN на цифрах, які сильно накладаються.
За початковою ідеєю Гінтона, одна мініколонка повинна була представляти та відстежувати один багатовимірний запис.
Перетворення
Інваріант — це властивість об'єкта, яка не змінюється в результаті деякого перетворення. Наприклад, площа кола не змінюється, якщо коло зсунути вліво.
Неформально [en] — це властивість, яка прогнозовано змінюється під час перетворення. Наприклад, центр кола переміщується на ту ж величину, що й коло при зсуві.
Нееквіваріант — це властивість, значення якої змінюється непрогнозовано під час перетворення. Наприклад, перетворення кола в еліпс означає, що його периметр більше не може бути обчислений як , помножений на діаметр.
У комп'ютерному зорі очікується, що клас об'єкта буде інваріантом при багатьох перетвореннях. Тобто кішка залишається кішкою, якщо її переміщують, перевертають догори ногами або зменшують у розмірі. Однак багато інших властивостей є еквіваріантними. Обсяг кота змінюється, при масштабуванні.
Еквіваріантні властивості, такі як просторові відносини, фіксуються в позі, дані, які описують перенесення, обертання, масштабування і дзеркальне відображення об'єкта.
Капсульні мережі некеровано вивчають глобальний лінійний простір між об'єктом і його позою у вигляді матриці ваг. Іншими словами, CapsNet можуть ідентифікувати об'єкт незалежно від його пози, замість того, щоб навчитися розпізнавати об'єкт, включаючи його просторові відносини як частину об'єкта. Крім того, поза може містити властивості, відмінні від просторових відносин, наприклад, колір (кішки можуть бути різних кольорів).
Множення об'єкта на різновид створює об'єкт (для об'єкта в просторі).
Об'єднання
Капсульні нейронні мережі відкидають стратегію (агрегувальних шарів) звичайних CNN, яка зменшує кількість деталей, що обробляються у наступному шарі. Об'єднання забезпечує певний ступінь трансляційної інваріантності (воно може розпізнавати один і той же об'єкт у дещо іншому місці) і дозволяє представляти більшу кількість типів об'єктів. Прихильники CapsNet стверджують, що агрегація:
- порушує біологічне сприйняття форми, оскільки не має внутрішньої системи координат;
- забезпечує інваріантність (відкидання позиційної інформації) замість еквіваріантності (розбір цієї інформації);
- ігнорує лінійне різноманіття, що лежить в основі багатьох варіацій між зображеннями;
- маршрутизує статично замість того, щоб повідомляти про потенційну «знахідку» об'єкту, який може його оцінити;
- пошкоджує довколишні детектори об'єктів, видаляючи інформацію, на яку вони покладаються.
Капсули
Капсула — це набір нейронів, які окремо активуються для різних властивостей типу об'єкта, таких як положення, розмір і відтінок. Формальна капсула — це набір нейронів, які разом створюють вектор активності з одним елементом для кожного нейрона, який містить значення екземпляра цього нейрона (наприклад, відтінок). Графічні програми використовують значення екземпляра для малювання об'єкта. CapsNet намагаються отримати їх зі своїх вхідних даних. Імовірність присутності об'єкта у певному потоці вхідних даних — це довжиною вектора, тоді як орієнтація вектора кількісно визначає властивості капсули.
Як правило, штучні нейрони видають скалярну дійсну активацію, яка в загальних рисах представляє ймовірність спостереження. CapsNet замінюють приймачі функцій зі скалярним виводом на капсули з векторним виводом, а максимізаційне агрегування — на маршрутизацію за угодою.
Оскільки капсули незалежні, коли кілька капсул узгоджуються, ймовірність правильного виявлення набагато вища. Мінімальний кластер з двох капсул, що розглядають шестивимірний об'єкт, буде узгодженим з точністю до 10 % випадково лише один раз на мільйон випробувань. Зі збільшенням кількості вимірів імовірність випадкового узгодяться в більшому кластері з більшою кількістю вимірів зменшується експоненціально.
Капсули наступних шарів отримують вихідні дані з капсул попередніх і приймають ті, чиї вихідні дані кластеризуються. Кластер призводить до того, що настуна капсула видає високу ймовірність спостереження присутності об'єкта, а також видає багатовимірну (20 — 50+) позу.
Капсули наступного шару ігнорують відхилення, концентруючись на кластерах. Це схоже на перетворення Хафа, RHT та RANSAC з класичної цифрової обробки зображень.
Маршрутизація за домовленістю
Вихідні дані з однієї капсули (нащадка) спрямовуються до капсул наступного шару (батьків) відповідно до здатності нащадка передбачати вихідні дані батьків. Протягом кількох ітерацій результати кожного з батьків можуть збігатися з прогнозами одних нащадків і відрізнятися від прогнозів інших, що означає, що цей батьківського елемента присутній або відсутній на сцені.
Для кожного можливого батьківського елемента кожний нащадок обчислює вектор прогнозування шляхом множення його вихідних даних на матрицю ваг (навчену шляхом зворотного поширення). Далі вихідні дані батьківського елемента обчислюються як скалярний добуток передбачення з коефіцієнтом, що представляє ймовірність того, що цей нащадок належить цьому батьківському елементу. Нащадок, чиї прогнози відносно близькі до вихідного результату, послідовно збільшує коефіцієнт між цим батьком і дитиною і зменшує його для батьків, яким він відповідає меншою мірою. Це збільшує внесок, який цей нащадок вносить в батьківський, тим самим збільшуючи скалярний добуток прогнозу капсули на вихідні дані батьківського елементу. Після декількох ітерацій коефіцієнти міцно пов'язують батьківський елемент з його найімовірнішими нащадками, вказуючи на те, що присутність нащадка передбачає присутність батьківського елемента на сцені. Чим більше нащадків, чиї прогнози близькі до результатів батьків, тим швидше зростають коефіцієнти, що сприяє зближенню. Поза батька (відображена в його результатах) поступово стає сумісною з позою його нащадків.
Початкові логіти коефіцієнтів — це логарифмічні ймовірності того, що нащадок належить до батьківського елементу. Пріори можна навчати вибірково разом із вагами. Пріори залежать від розташування та типу дочірніх і батьківських капсул, але не від вхідних даних. На кожній ітерації коефіцієнти коригуються за допомогою softmax «маршрутизації» таким чином, щоб вони продовжували дорівнювати 1 (щоб висловити ймовірність того, що дана капсула є батьківською для даного дочірнього елемента). Softmax підсилює великі значення та зменшує менші значення, чим більша їх частка в загальному обсязі. Аналогічно, ймовірність того, що ознака присутня у вхідних даних, перебільшується нелінійною функцією «стискання», яка зменшує значення (менші значення — різко, а більші — так щоб вони були менші за 1).
Цей механізм динамічної маршрутизації забезпечує необхідне знецінення альтернатив («обґрунтування»), яке необхідне для сегментації об'єктів, що перекриваються.
Ця вивчена маршрутизація сигналів не має чіткого біологічного еквівалента. Деякі операції можна знайти в кортикальних шарах, але вони, здається, не пов'язані з цією технікою.
Математика/код
Вектор пози обертається та перетворюється матрицею у вектор , який передбачає вихідні дані батьківської капсули.
Капсули наступного шару отримують суму прогнозів від усіх капсул попереднього, кожен з коефіцієнтом зв'язку .
Процедура softmax
Коефіцієнти зв'язку від капсули у шарі до всіх капсул у шарі підсумовуються до одиниці, та визначаються «softmax маршрутизацією». Початкові [en] є попередніми логарифмічними ймовірностями для маршрутизації. Це апріорна ймовірність того, що капсула у шарі має з'єднатися з капсулою у шарі . Нормалізація коефіцієнтів зв'язку:
Щоб ця процедура була оптимальною, потрібно запам'ятати кілька значень і скидати ці значення на кожній ітерації. Тобто, якщо вектор змінюється, то запам'ятовані значення необхідно оновити. Не показано, як це потрібно зробити. Запам'ятовування дільника не показано.
Процедура squash
Оскільки довжина векторів представляє ймовірності, вони повинні бути від нуля (0) до одиниці (1), і для цього застосовується функція стиснення:
Вектор, зведений до нуля, має градієнт, що зникає.
Маршрутизація процедури
Один з підходів до маршрутизації полягає в наступному
У рядку 8 функція softmax може бути замінена будь-яким типом WTA мереж . Біологічно це дещо нагадує канделяберні клітини, але вони також можуть бути залучені до обчислення коефіцієнтів зв'язку (рядок 9) або обчислення угод (рядок 11).
У рядку 9 показана матриця ваг для коефіцієнтів зв'язку та прихована матриця прогнозування. Структура рівнів I та II дещо схожа на кору головного мозку, якщо припустити, що [en] беруть участь у транспонуванні вхідних векторів. Неясно, чи виконують обидва типи зірчастих клітин одну і ту функцію, оскільки рівень I містить колючи клітини, що збуджують, а рівень II має гальмівні аспині клітини. Останнє вказує на зовсім іншу мережу.
У рядку 10 функція squash може бути замінена іншими функціями та мережевими топологіями, які зберігають напрямок вектора.
Процедура виконує ітерацій, зазвичай 4–5, з індексом вихідного або первинного рівня капсули, звідки йде маршрут, та рівень капсули наступний вищий рівень.
Навчання
Навчання є керованим. Мережа навчається шляхом мінімізації евклідової відстані між зображенням і вихідними даними CNN, який відтворює вхідні дані з вихідних даних останніх капсул.
Мережа навчається на основі вибору, використовуючи ітераційну маршрутизацію за угодою.
Вектори активності всіх, крім правильного батьківського елемента, маскуються.
Розподілення втрат
Довжина вектора створення екземпляра представляє ймовірність того, що об'єкт капсули присутній на сцені. Капсула наступного рівня має довгий вектор тоді і тільки тоді, коли присутній пов'язаний з ним об'єкт. Щоб врахувати декілька об'єктів, для кожної капсули розраховується окрема втрата. Зменшення ваги втрат для відсутніх об'єктів зупиняє процес навчання від скорочення довжин векторів активності для всіх об'єктів. Загальні втрати — це сума втрат всіх об'єктів. У прикладі Хінтона функція втрат виглядає так:
Цей тип функції втрат поширений в ANN. Параметри та встановлені таким чином, щоб довжина не була максимальною або не зменшувалася, та . Зменшення ваги початкових ваг для відсутніх класів контролюється , з як розумний вибір.
Втрати при відновленні
Додаткова втрата при відновленні спонукає об'єкти кодувати параметри створення своїх вхідних даних. Остаточний вектор активності потім використовується для відновлення вхідного зображення за допомогою декодера CNN, що складається з 3 повністю пов'язаних шарів. Реконструкція мінімізує суму квадратів різниць між виходами логістичних одиниць та інтенсивністю пікселів. Ця втрата від відновлення зменшена на 0,0005, щоб вона не переважала розподілену втрату під час навчання.
Приклад конфігурації
Перші згорткові шари виконують виділення ознак. Для тесту зображення MNIST розміром 28x28 пікселів вхідні 256 згорткових ядер розміром 9x9 пікселів (з використанням активації кроку 1 та випрямленої лінійної одиниці (ReLU), що визначають рецептивне поле 20x20 пікселів) перетворюють вхідні пікселі в активації одновимірних об'єктів та викликають нелінійність.
Первинний (початковий) шар капсул ділить 256 ядер на 32 капсули по 8 ядер 9x9 в кожній (використовуючи крок 2, визначають сприйнятливі поля 6x6). Активація капсул ефективно інвертує процес візуалізації графіків, переходячи від пікселів до об'єктів. Кожна капсула використовує єдину матрицю ваг для всіх рецептивних полів. Кожна первинна капсула бачить усі вихідні дані початкового рівня, поля яких перекриваються з центром поля в первинному шарі. Кожна первинна капсула (для певного поля) являє собою 8-вимірний вектор.
Другий шар капсули з цифрами має одну 16-вимірну капсулу для кожної цифри (0-9). Динамічна маршрутизація з'єднує (тільки) первинний і цифровий шар. Матриця ваг [32x6x6] x 10 контролює відображення між шарами.
CapsNet є ієрархічною, оскільки кожна капсула попереднього рівня робить значний внесок лише в одну капсулу наступного рівня.
Однак відтворення набутих знань залишається цінним. Для досягнення цієї мети попередні шари CapsNet є згортковими, включаючи приховані шари капсул. Таким чином, наступні шари охоплюють більші області, зберігаючи при цьому інформацію про точне положення кожного об'єкта в межах області. Для капсул попереднього шару інформація про місцеперебування «закодована» відповідно до того, яка капсула активна. Чим далі, тим більше і більше інформації про місцеперебування кодується у вихідному векторі капсули. Цей перехід від кодування місця до кодування швидкості в поєднанні з тим фактом, що капсули наступних шарів представляють більш складні об'єкти з великою кількістю ступенів свободи, свідчить про те, що розмірність капсули збільшується з номером шару.
Людський зір
Людський зір досліджує послідовність фокусних точок (керованих сакадами), обробляючи лише частину сцени з найвищою роздільною здатністю. Розробка капсульних мереж була натхнена кортикальними мініколоноками в корі головного мозку. Мініколонка — це структура, що містить 80-120 нейронів, діаметром приблизно 28-40 мкм, яка охоплює всі шари кори головного мозку. Усі нейрони у великих мініколонках мають однакове рецептивне поле, і вони видають свої активації у вигляді нервового імпульсу. Нейрони в мікроколонці отримують загальні вхідні дані, мають спільні вихідні дані, взаємопов'язані й можуть становити фундаментальну обчислювальну одиницю кори головного мозку.
Капсульні мережі досліджують наочне уявлення, згідно з яким зорова система людини створює деревоподібну структуру для кожної фокальної точки та координує ці дерева для розпізнавання об'єктів. Проте, за допомогою капсульних мереж кожне дерево «вирізається» з фіксованої мережі (шляхом коригування коефіцієнтів), а не збирається на льоту.
Альтернативи
Стверджується, що капсульні нейроні мережі мають чотири основні концептуальні переваги перед згортковими нейронними мережами (CNN):
- Інваріантність точки зору: використання матриць поз дозволяє капсульним мережам розпізнавати об'єкти незалежно від перспективи, з якої вони розглядаються.
- Менша кількість параметрів: оскільки капсули групують нейрони, зв'язки між шарами вимагають меншої кількості параметрів.
- Краще узагальнення для нових точок зору: CNN, навчені розуміти обертання, часто дізнаються, що об'єкт можна розглядати однаково з декількох різних обертань. Проте капсульні мережі краще узагальнюють нові точки зору, оскільки матриці поз можуть фіксувати ці характеристики у вигляді лінійних перетворень.
- Захист від атак «білого ящика»: метод швидкого градієнта (FGSM) є типовим методом для атаки на CNN. Він оцінює градієнт кожного пікселя щодо втрати мережі та змінює кожен піксель не більше ніж на епсилон (термін помилки), щоб максимізувати втрати. Хоча цей метод може різко знизити точність CNN (наприклад, нижче 20 %), капсульні мережі зберігають точність вище 70 %.
Повністю згорткові мережі не можуть бути узагальнені на невивчені точки зору (крім перетворення). Для інших афінних перетворень або детектори об'єктів мають повторюватися на сітці, яка зростає експоненціально зі збільшенням кількості вимірювань перетворення, або розмір позначеного навчального набору повинен (експоненціально) розширюватися, щоб охопити ці точки зору. Ці експоненціальні стрибки роблять їх непридатними для вирішення більших завдань.
Матриці перетворення капсульних мереж вивчають (незалежні від точки зору) просторові відносини між частиною і цілим, що дозволяє розпізнавати ціле на основі таких відносин. Проте капсульні мережі припускають, що в кожному місці відображається не більше одного екземпляра об'єкта капсули. Це припущення дозволяє капсулі використовувати розподілене представлення (вектор її активності) об'єкта для представлення цього об'єкта в цьому місці.
Капсульні мережі використовують нейронні активності, які змінюються в залежності від точки зору. Їм не потрібно нормалізувати об'єкти (як у просторових мережах перетворення) і навіть можуть розпізнавати багаторазово трансформовані об'єкти. Капсульні мережі також можуть обробляти сегментовані об'єкти.
Див. також
Замітка
- In Hinton's own words this is «wild speculation».
Примітки
- Sabour, Sara; Frosst, Nicholas; Hinton, Geoffrey E. (26 жовтня 2017). Dynamic Routing Between Capsules. arXiv:1710.09829 [cs.CV].
- Hinton, Geoffrey E.; Krizhevsky, Alex; Wang, Sida D. (14 червня 2011). Transforming Auto-Encoders. Lecture Notes in Computer Science (англ.). Т. 6791. Springer, Berlin, Heidelberg. с. 44—51. CiteSeerX 10.1.1.220.5099. doi:10.1007/978-3-642-21735-7_6. ISBN .
{{}}
: Проігноровано|journal=
() - Srihari, Sargur. (PDF). . Архів оригіналу (PDF) за 21 січня 2022. Процитовано 7 грудня 2017.
- Hinton, Geoffrey E; Ghahramani, Zoubin; Teh, Yee Whye (2000). ; Leen, T. K.; Müller, K. (ред.). (PDF). MIT Press. с. 463—469. Архів оригіналу (PDF) за 2 липня 2020. Процитовано 26 травня 2022.
- Meher Vamsi (15 листопада 2017), , архів оригіналу за 26 травня 2022, процитовано 6 грудня 2017
- . jhui.github.io. Архів оригіналу за 18 квітня 2022. Процитовано 31 грудня 2017.
- Tan, Kendrick (10 листопада 2017). . kndrck.co (англ.). Архів оригіналу за 7 травня 2022. Процитовано 26 грудня 2017.
- . www.physics.drexel.edu. Архів оригіналу за 27 травня 2018. Процитовано 31 грудня 2017.
Посилання
- Geoffrey Hinton: "Does the Brain do Inverse Graphics? [ 3 вересня 2020 у Wayback Machine.] "Video [ 3 вересня 2020 у Wayback Machine.]
- Geoffrey Hinton: "Does the Brain do Inverse Graphics? [ 23 вересня 2020 у Wayback Machine.] "Slides [ 23 вересня 2020 у Wayback Machine.]
- Dynamic Routing Between Capsules
- Matrix Capsules With EM Routing [ 10 червня 2019 у Wayback Machine.]
- , February 2020, архів оригіналу за 26 травня 2022, процитовано 23 жовтня 2020
- , Gram.AI, 8 грудня 2017, архів оригіналу за 26 травня 2022, процитовано 8 грудня 2017
- What's wrong with convolutional neural nets на YouTube
- . www.cedar.buffalo.edu. Архів оригіналу за 21 січня 2022. Процитовано 7 грудня 2017.
- Bourdakos, Nick (12 лютого 2018). Understanding Capsule Networks — AI's Alluring New Architecture. freeCodeCamp.org. Процитовано 23 квітня 2019.
- Dai, Jifeng; Qi, Haozhi; Xiong, Yuwen; Li, Yi; Zhang, Guodong; Hu, Han; Wei, Yichen (17 березня 2017). Deformable Convolutional Networks. arXiv:1703.06211 [cs.CV].
- De Brabandere, Bert; Jia, Xu; Tuytelaars, Tinne; Van Gool, Luc (31 травня 2016). Dynamic Filter Networks. arXiv:1605.09673 [cs.LG].
- Guo, Xifeng (8 грудня 2017), , архів оригіналу за 26 травня 2022, процитовано 8 грудня 2017
- Hinton, Geoffrey; Sabour, Sara; Frosst, Nicholas (November 2017). . Архів оригіналу за 9 травня 2022. Процитовано 26 травня 2022.
- Hinton and Google Brain - Capsule Networks на YouTube
- Liao, Huadong (8 грудня 2017), , архів оригіналу за 26 травня 2022, процитовано 8 грудня 2017
- Cai, Fangyu (18 грудня 2020). . Medium (англ.). Архів оригіналу за 26 травня 2022. Процитовано 18 січня 2021.
- Sun, Weiwei; Tagliasacchi, Andrea; Deng, Boyang; Sabour, Sara; Yazdani, Soroosh; Hinton, Geoffrey; Yi, Kwang Moo (8 грудня 2020). Canonical Capsules: Unsupervised Capsules in Canonical Pose. arXiv:2012.04718 [cs.CV].
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Kapsulna nejronna merezha angl capsule neural network CapsNet ce sistema mashinnogo navchannya sho yavlyaye soboyu tip shtuchnoyi nejronnoyi merezhi ANN yaku mozhna vikoristovuvati dlya krashogo modelyuvannya iyerarhichnih vidnosin Cej pidhid ye sproboyu bilsh tochno imituvati biologichnu nejronnu organizaciyu Ideya polyagaye v tomu shob dodati strukturi sho nazivayutsya kapsuli do zgortkovoyi nejronnoyi merezhi CNN i povtorno vikoristovuvati vihidni dani vid dekilkoh z cih kapsul dlya formuvannya bilsh stijkih do riznih shumiv oznak dlya nastupnih kapsul Rezultat yavlyaye soboyu vektor sho skladayetsya z en ta en dlya cogo sposterezhennya Cej vektor podibnij do togo sho stvoryuyetsya napriklad pid chas vikonannya klasifikaciyi z lokalizaciyeyu v zgortkovij nejronnij merezhi Sered inshih perevag kapsulni merezhi virishuyut problemu Pikasso pri rozpiznavanni zobrazhen zobrazhennya yaki mayut usi pravilni chastini ale ne znahodyatsya v pravilnomu prostorovomu spivvidnoshenni napriklad na oblichchi minyayutsya miscyami rot ta odne oko Dlya rozpiznavannya zobrazhen vikoristovuyetsya toj fakt sho hocha zmina tochki sposterezhennya maye nelinijnij vpliv na rivni pikseliv ale linijni na rivni detali ob yekta Ce mozhna porivnyati z inversiyeyu vidtvorennya ob yekta sho skladayetsya z dekilkoh chastin IstoriyaU 2000 roci Dzheffri Ginton ta in opisali sistemu vizualizaciyi yaka poyednuye segmentaciyu ta rozpiznavannya v yedinij proces vivedennya z vikoristannyam derev sintaksichnogo analizu Tak zvani merezhi imovirnosti opisuyut spilnij rozpodil za prihovanimi zminnimi ta za mozhlivimi derevami sintaksichnogo analizu Cya sistema viyavilasya korisnoyu v bazi rukopisnih cifr MNIST Mehanizm dinamichnoyi marshrutizaciyi dlya kapsulnih merezh buv zaproponovanij Gintonom ta jogo komandoyu u 2017 roci Stverdzhuvalosya sho cej pidhid zmenshuye riven pomilok u MNIST ta zmenshuye rozmiri navchalnih naboriv Stverdzhuvalosya sho rezultati buli znachno krashimi nizh CNN na cifrah yaki silno nakladayutsya Za pochatkovoyu ideyeyu Gintona odna minikolonka povinna bula predstavlyati ta vidstezhuvati odin bagatovimirnij zapis PeretvorennyaInvariant ce vlastivist ob yekta yaka ne zminyuyetsya v rezultati deyakogo peretvorennya Napriklad plosha kola ne zminyuyetsya yaksho kolo zsunuti vlivo Neformalno en ce vlastivist yaka prognozovano zminyuyetsya pid chas peretvorennya Napriklad centr kola peremishuyetsya na tu zh velichinu sho j kolo pri zsuvi Neekvivariant ce vlastivist znachennya yakoyi zminyuyetsya neprognozovano pid chas peretvorennya Napriklad peretvorennya kola v elips oznachaye sho jogo perimetr bilshe ne mozhe buti obchislenij yak p displaystyle pi pomnozhenij na diametr U komp yuternomu zori ochikuyetsya sho klas ob yekta bude invariantom pri bagatoh peretvorennyah Tobto kishka zalishayetsya kishkoyu yaksho yiyi peremishuyut perevertayut dogori nogami abo zmenshuyut u rozmiri Odnak bagato inshih vlastivostej ye ekvivariantnimi Obsyag kota zminyuyetsya pri masshtabuvanni Ekvivariantni vlastivosti taki yak prostorovi vidnosini fiksuyutsya v pozi dani yaki opisuyut perenesennya obertannya masshtabuvannya i dzerkalne vidobrazhennya ob yekta Kapsulni merezhi nekerovano vivchayut globalnij linijnij prostir mizh ob yektom i jogo pozoyu u viglyadi matrici vag Inshimi slovami CapsNet mozhut identifikuvati ob yekt nezalezhno vid jogo pozi zamist togo shob navchitisya rozpiznavati ob yekt vklyuchayuchi jogo prostorovi vidnosini yak chastinu ob yekta Krim togo poza mozhe mistiti vlastivosti vidminni vid prostorovih vidnosin napriklad kolir kishki mozhut buti riznih koloriv Mnozhennya ob yekta na riznovid stvoryuye ob yekt dlya ob yekta v prostori Ob yednannyaKapsulni nejronni merezhi vidkidayut strategiyu agreguvalnih shariv zvichajnih CNN yaka zmenshuye kilkist detalej sho obroblyayutsya u nastupnomu shari Ob yednannya zabezpechuye pevnij stupin translyacijnoyi invariantnosti vono mozhe rozpiznavati odin i toj zhe ob yekt u desho inshomu misci i dozvolyaye predstavlyati bilshu kilkist tipiv ob yektiv Prihilniki CapsNet stverdzhuyut sho agregaciya porushuye biologichne sprijnyattya formi oskilki ne maye vnutrishnoyi sistemi koordinat zabezpechuye invariantnist vidkidannya pozicijnoyi informaciyi zamist ekvivariantnosti rozbir ciyeyi informaciyi ignoruye linijne riznomanittya sho lezhit v osnovi bagatoh variacij mizh zobrazhennyami marshrutizuye statichno zamist togo shob povidomlyati pro potencijnu znahidku ob yektu yakij mozhe jogo ociniti poshkodzhuye dovkolishni detektori ob yektiv vidalyayuchi informaciyu na yaku voni pokladayutsya KapsuliKapsula ce nabir nejroniv yaki okremo aktivuyutsya dlya riznih vlastivostej tipu ob yekta takih yak polozhennya rozmir i vidtinok Formalna kapsula ce nabir nejroniv yaki razom stvoryuyut vektor aktivnosti z odnim elementom dlya kozhnogo nejrona yakij mistit znachennya ekzemplyara cogo nejrona napriklad vidtinok Grafichni programi vikoristovuyut znachennya ekzemplyara dlya malyuvannya ob yekta CapsNet namagayutsya otrimati yih zi svoyih vhidnih danih Imovirnist prisutnosti ob yekta u pevnomu potoci vhidnih danih ce dovzhinoyu vektora todi yak oriyentaciya vektora kilkisno viznachaye vlastivosti kapsuli Yak pravilo shtuchni nejroni vidayut skalyarnu dijsnu aktivaciyu yaka v zagalnih risah predstavlyaye jmovirnist sposterezhennya CapsNet zaminyuyut prijmachi funkcij zi skalyarnim vivodom na kapsuli z vektornim vivodom a maksimizacijne agreguvannya na marshrutizaciyu za ugodoyu Oskilki kapsuli nezalezhni koli kilka kapsul uzgodzhuyutsya jmovirnist pravilnogo viyavlennya nabagato visha Minimalnij klaster z dvoh kapsul sho rozglyadayut shestivimirnij ob yekt bude uzgodzhenim z tochnistyu do 10 vipadkovo lishe odin raz na miljon viprobuvan Zi zbilshennyam kilkosti vimiriv imovirnist vipadkovogo uzgodyatsya v bilshomu klasteri z bilshoyu kilkistyu vimiriv zmenshuyetsya eksponencialno Kapsuli nastupnih shariv otrimuyut vihidni dani z kapsul poperednih i prijmayut ti chiyi vihidni dani klasterizuyutsya Klaster prizvodit do togo sho nastuna kapsula vidaye visoku jmovirnist sposterezhennya prisutnosti ob yekta a takozh vidaye bagatovimirnu 20 50 pozu Kapsuli nastupnogo sharu ignoruyut vidhilennya koncentruyuchis na klasterah Ce shozhe na peretvorennya Hafa RHT ta RANSAC z klasichnoyi cifrovoyi obrobki zobrazhen Marshrutizaciya za domovlenistyuVihidni dani z odniyeyi kapsuli nashadka spryamovuyutsya do kapsul nastupnogo sharu batkiv vidpovidno do zdatnosti nashadka peredbachati vihidni dani batkiv Protyagom kilkoh iteracij rezultati kozhnogo z batkiv mozhut zbigatisya z prognozami odnih nashadkiv i vidriznyatisya vid prognoziv inshih sho oznachaye sho cej batkivskogo elementa prisutnij abo vidsutnij na sceni Dlya kozhnogo mozhlivogo batkivskogo elementa kozhnij nashadok obchislyuye vektor prognozuvannya shlyahom mnozhennya jogo vihidnih danih na matricyu vag navchenu shlyahom zvorotnogo poshirennya Dali vihidni dani batkivskogo elementa obchislyuyutsya yak skalyarnij dobutok peredbachennya z koeficiyentom sho predstavlyaye jmovirnist togo sho cej nashadok nalezhit comu batkivskomu elementu Nashadok chiyi prognozi vidnosno blizki do vihidnogo rezultatu poslidovno zbilshuye koeficiyent mizh cim batkom i ditinoyu i zmenshuye jogo dlya batkiv yakim vin vidpovidaye menshoyu miroyu Ce zbilshuye vnesok yakij cej nashadok vnosit v batkivskij tim samim zbilshuyuchi skalyarnij dobutok prognozu kapsuli na vihidni dani batkivskogo elementu Pislya dekilkoh iteracij koeficiyenti micno pov yazuyut batkivskij element z jogo najimovirnishimi nashadkami vkazuyuchi na te sho prisutnist nashadka peredbachaye prisutnist batkivskogo elementa na sceni Chim bilshe nashadkiv chiyi prognozi blizki do rezultativ batkiv tim shvidshe zrostayut koeficiyenti sho spriyaye zblizhennyu Poza batka vidobrazhena v jogo rezultatah postupovo staye sumisnoyu z pozoyu jogo nashadkiv Pochatkovi logiti koeficiyentiv ce logarifmichni jmovirnosti togo sho nashadok nalezhit do batkivskogo elementu Priori mozhna navchati vibirkovo razom iz vagami Priori zalezhat vid roztashuvannya ta tipu dochirnih i batkivskih kapsul ale ne vid vhidnih danih Na kozhnij iteraciyi koeficiyenti koriguyutsya za dopomogoyu softmax marshrutizaciyi takim chinom shob voni prodovzhuvali dorivnyuvati 1 shob visloviti jmovirnist togo sho dana kapsula ye batkivskoyu dlya danogo dochirnogo elementa Softmax pidsilyuye veliki znachennya ta zmenshuye menshi znachennya chim bilsha yih chastka v zagalnomu obsyazi Analogichno jmovirnist togo sho oznaka prisutnya u vhidnih danih perebilshuyetsya nelinijnoyu funkciyeyu stiskannya yaka zmenshuye znachennya menshi znachennya rizko a bilshi tak shob voni buli menshi za 1 Cej mehanizm dinamichnoyi marshrutizaciyi zabezpechuye neobhidne znecinennya alternativ obgruntuvannya yake neobhidne dlya segmentaciyi ob yektiv sho perekrivayutsya Cya vivchena marshrutizaciya signaliv ne maye chitkogo biologichnogo ekvivalenta Deyaki operaciyi mozhna znajti v kortikalnih sharah ale voni zdayetsya ne pov yazani z ciyeyu tehnikoyu Matematika kod Vektor pozi ui textstyle mathbf u i obertayetsya ta peretvoryuyetsya matriceyu Wij textstyle mathbf W ij u vektor u j i textstyle mathbf hat u j i yakij peredbachaye vihidni dani batkivskoyi kapsuli u j i Wijui displaystyle mathbf hat u j i mathbf W ij mathbf u i Kapsuli sj textstyle s j nastupnogo sharu otrimuyut sumu prognoziv vid usih kapsul poperednogo kozhen z koeficiyentom zv yazku cij textstyle c ij sj ciju j i displaystyle s j sum c ij mathbf hat u j i Procedura softmax Koeficiyenti zv yazku vid kapsuli i textstyle i u shari l textstyle l do vsih kapsul u shari l 1 textstyle l 1 pidsumovuyutsya do odinici ta viznachayutsya softmax marshrutizaciyeyu Pochatkovi en bij textstyle b ij ye poperednimi logarifmichnimi jmovirnostyami dlya marshrutizaciyi Ce apriorna jmovirnist togo sho kapsula i textstyle i u shari l textstyle l maye z yednatisya z kapsuloyu j textstyle j u shari l 1 textstyle l 1 Normalizaciya koeficiyentiv zv yazku 1 procedure softmax b i 2 argument matrix3 argument scalar4 memorize on b5 return vector6 foreach index i j do7 cij ebij kebik8 return ci displaystyle begin array lcl 1 mathbf procedure mathrm softmax mathbf b i 2 quad triangleright mbox argument matrix 3 quad triangleright mbox argument scalar 4 quad triangleright mbox memorize on mathbf b 5 quad triangleright mbox return vector 6 quad mathbf foreach mbox index i j mathbf do 7 qquad c ij leftarrow frac e b ij sum k e b ik 8 quad mathbf return mathbf c i end array Shob cya procedura bula optimalnoyu potribno zapam yatati kilka znachen i skidati ci znachennya na kozhnij iteraciyi Tobto yaksho vektor b displaystyle mathbf b zminyuyetsya to zapam yatovani znachennya neobhidno onoviti Ne pokazano yak ce potribno zrobiti Zapam yatovuvannya dilnika ne pokazano Procedura squash Oskilki dovzhina vektoriv predstavlyaye jmovirnosti voni povinni buti vid nulya 0 do odinici 1 i dlya cogo zastosovuyetsya funkciya stisnennya 1 procedure squash a 2 argument vector2 return vector3 a a 21 a 2a a 4 return a displaystyle begin array lcl 1 mathbf procedure mathrm squash mathbf a 2 quad triangleright mbox argument vector 2 quad triangleright mbox return vector 3 qquad mathbf a leftarrow frac mathbf a 2 1 mathbf a 2 frac mathbf a mathbf a 4 quad mathbf return mathbf a end array Vektor zvedenij do nulya maye gradiyent sho znikaye Marshrutizaciya proceduri Odin z pidhodiv do marshrutizaciyi polyagaye v nastupnomu 1 procedure routing u j i r l 2 argument vector 3 argument scalar 4 argument scalar 5 return vector 6 foreach capsule i in layer l capsule j in layer l 1 do bij 0 7 for iteration r do 8 foreach capsule i in layer l do ci softmax b i 9 foreach capsule j in layer l 1 do sj iciju j i10 foreach capsule j in layer l 1 do vj squash sj 11 foreach capsule i in layer l j in layer l 1 do bij bij u j i vj12 return vj displaystyle begin array lcl 1 mathbf procedure mathrm routing mathbf hat u j i r l 2 quad triangleright mbox argument vector 3 quad triangleright mbox argument scalar 4 quad triangleright mbox argument scalar 5 quad triangleright mbox return vector 6 quad mathbf foreach mbox capsule i mbox in layer l mbox capsule j mbox in layer l 1 mathbf do b ij leftarrow 0 7 quad mathbf for mbox iteration r mathbf do 8 qquad mathbf foreach mbox capsule i mbox in layer l mathbf do mathbf c i leftarrow operatorname softmax mathbf b i 9 qquad mathbf foreach mbox capsule j mbox in layer l 1 mathbf do mathbf s j leftarrow sum i c ij mathbf hat u j i 10 qquad mathbf foreach mbox capsule j mbox in layer l 1 mathbf do mathbf v j leftarrow operatorname squash mathbf s j 11 qquad mathbf foreach mbox capsule i mbox in layer l j mbox in layer l 1 mathbf do mathbf b ij leftarrow mathbf b ij mathbf hat u j i cdot mathbf v j 12 quad mathbf return mathbf v j end array U ryadku 8 funkciya softmax mozhe buti zaminena bud yakim tipom WTA merezh Biologichno ce desho nagaduye kandelyaberni klitini ale voni takozh mozhut buti zalucheni do obchislennya koeficiyentiv zv yazku ryadok 9 abo obchislennya ugod ryadok 11 U ryadku 9 pokazana matricya vag dlya koeficiyentiv zv yazku ta prihovana matricya prognozuvannya Struktura rivniv I ta II desho shozha na koru golovnogo mozku yaksho pripustiti sho en berut uchast u transponuvanni vhidnih vektoriv Neyasno chi vikonuyut obidva tipi zirchastih klitin odnu i tu funkciyu oskilki riven I mistit kolyuchi klitini sho zbudzhuyut a riven II maye galmivni aspini klitini Ostannye vkazuye na zovsim inshu merezhu U ryadku 10 funkciya squash mozhe buti zaminena inshimi funkciyami ta merezhevimi topologiyami yaki zberigayut napryamok vektora Procedura vikonuye r textstyle r iteracij zazvichaj 4 5 z l textstyle l indeksom vihidnogo abo pervinnogo rivnya kapsuli zvidki jde marshrut ta riven kapsuli l 1 textstyle l 1 nastupnij vishij riven NavchannyaNavchannya ye kerovanim Merezha navchayetsya shlyahom minimizaciyi evklidovoyi vidstani mizh zobrazhennyam i vihidnimi danimi CNN yakij vidtvoryuye vhidni dani z vihidnih danih ostannih kapsul Merezha navchayetsya na osnovi viboru vikoristovuyuchi iteracijnu marshrutizaciyu za ugodoyu Vektori aktivnosti vsih krim pravilnogo batkivskogo elementa maskuyutsya Rozpodilennya vtrat Dovzhina vektora stvorennya ekzemplyara predstavlyaye jmovirnist togo sho ob yekt kapsuli prisutnij na sceni Kapsula nastupnogo rivnya maye dovgij vektor todi i tilki todi koli prisutnij pov yazanij z nim ob yekt Shob vrahuvati dekilka ob yektiv dlya kozhnoyi kapsuli rozrahovuyetsya okrema vtrata Zmenshennya vagi vtrat dlya vidsutnih ob yektiv zupinyaye proces navchannya vid skorochennya dovzhin vektoriv aktivnosti dlya vsih ob yektiv Zagalni vtrati ce suma vtrat vsih ob yektiv U prikladi Hintona funkciya vtrat viglyadaye tak Lk Tk max 0 m vk 2 class present l 1 Tk max 0 vk m 2 class not present Tk 1 digit of class k present0 otherwise displaystyle begin aligned L k amp underbrace T k max left 0 m mathbf v k right 2 mbox class present underbrace lambda left 1 T k right max left 0 mathbf v k m right 2 mbox class not present amp T k begin cases 1 amp mbox digit of class k mbox present 0 amp mbox otherwise end cases end aligned Cej tip funkciyi vtrat poshirenij v ANN Parametri m textstyle m ta m textstyle m vstanovleni takim chinom shob dovzhina ne bula maksimalnoyu abo ne zmenshuvalasya m 0 9 textstyle m 0 9 ta m 0 1 textstyle m 0 1 Zmenshennya vagi pochatkovih vag dlya vidsutnih klasiv kontrolyuyetsya l textstyle lambda z l 0 5 textstyle lambda 0 5 yak rozumnij vibir Vtrati pri vidnovlenni Dodatkova vtrata pri vidnovlenni sponukaye ob yekti koduvati parametri stvorennya svoyih vhidnih danih Ostatochnij vektor aktivnosti potim vikoristovuyetsya dlya vidnovlennya vhidnogo zobrazhennya za dopomogoyu dekodera CNN sho skladayetsya z 3 povnistyu pov yazanih shariv Rekonstrukciya minimizuye sumu kvadrativ riznic mizh vihodami logistichnih odinic ta intensivnistyu pikseliv Cya vtrata vid vidnovlennya zmenshena na 0 0005 shob vona ne perevazhala rozpodilenu vtratu pid chas navchannya Priklad konfiguraciyiPershi zgortkovi shari vikonuyut vidilennya oznak Dlya testu zobrazhennya MNIST rozmirom 28x28 pikseliv vhidni 256 zgortkovih yader rozmirom 9x9 pikseliv z vikoristannyam aktivaciyi kroku 1 ta vipryamlenoyi linijnoyi odinici ReLU sho viznachayut receptivne pole 20x20 pikseliv peretvoryuyut vhidni pikseli v aktivaciyi odnovimirnih ob yektiv ta viklikayut nelinijnist Pervinnij pochatkovij shar kapsul dilit 256 yader na 32 kapsuli po 8 yader 9x9 v kozhnij vikoristovuyuchi krok 2 viznachayut sprijnyatlivi polya 6x6 Aktivaciya kapsul efektivno invertuye proces vizualizaciyi grafikiv perehodyachi vid pikseliv do ob yektiv Kozhna kapsula vikoristovuye yedinu matricyu vag dlya vsih receptivnih poliv Kozhna pervinna kapsula bachit usi vihidni dani pochatkovogo rivnya polya yakih perekrivayutsya z centrom polya v pervinnomu shari Kozhna pervinna kapsula dlya pevnogo polya yavlyaye soboyu 8 vimirnij vektor Drugij shar kapsuli z ciframi maye odnu 16 vimirnu kapsulu dlya kozhnoyi cifri 0 9 Dinamichna marshrutizaciya z yednuye tilki pervinnij i cifrovij shar Matricya vag 32x6x6 x 10 kontrolyuye vidobrazhennya mizh sharami CapsNet ye iyerarhichnoyu oskilki kozhna kapsula poperednogo rivnya robit znachnij vnesok lishe v odnu kapsulu nastupnogo rivnya Odnak vidtvorennya nabutih znan zalishayetsya cinnim Dlya dosyagnennya ciyeyi meti poperedni shari CapsNet ye zgortkovimi vklyuchayuchi prihovani shari kapsul Takim chinom nastupni shari ohoplyuyut bilshi oblasti zberigayuchi pri comu informaciyu pro tochne polozhennya kozhnogo ob yekta v mezhah oblasti Dlya kapsul poperednogo sharu informaciya pro misceperebuvannya zakodovana vidpovidno do togo yaka kapsula aktivna Chim dali tim bilshe i bilshe informaciyi pro misceperebuvannya koduyetsya u vihidnomu vektori kapsuli Cej perehid vid koduvannya miscya do koduvannya shvidkosti v poyednanni z tim faktom sho kapsuli nastupnih shariv predstavlyayut bilsh skladni ob yekti z velikoyu kilkistyu stupeniv svobodi svidchit pro te sho rozmirnist kapsuli zbilshuyetsya z nomerom sharu Lyudskij zirLyudskij zir doslidzhuye poslidovnist fokusnih tochok kerovanih sakadami obroblyayuchi lishe chastinu sceni z najvishoyu rozdilnoyu zdatnistyu Rozrobka kapsulnih merezh bula nathnena kortikalnimi minikolonokami v kori golovnogo mozku Minikolonka ce struktura sho mistit 80 120 nejroniv diametrom priblizno 28 40 mkm yaka ohoplyuye vsi shari kori golovnogo mozku Usi nejroni u velikih minikolonkah mayut odnakove receptivne pole i voni vidayut svoyi aktivaciyi u viglyadi nervovogo impulsu Nejroni v mikrokolonci otrimuyut zagalni vhidni dani mayut spilni vihidni dani vzayemopov yazani j mozhut stanoviti fundamentalnu obchislyuvalnu odinicyu kori golovnogo mozku Kapsulni merezhi doslidzhuyut naochne uyavlennya zgidno z yakim zorova sistema lyudini stvoryuye derevopodibnu strukturu dlya kozhnoyi fokalnoyi tochki ta koordinuye ci dereva dlya rozpiznavannya ob yektiv Prote za dopomogoyu kapsulnih merezh kozhne derevo virizayetsya z fiksovanoyi merezhi shlyahom koriguvannya koeficiyentiv a ne zbirayetsya na lotu AlternativiStverdzhuyetsya sho kapsulni nejroni merezhi mayut chotiri osnovni konceptualni perevagi pered zgortkovimi nejronnimi merezhami CNN Invariantnist tochki zoru vikoristannya matric poz dozvolyaye kapsulnim merezham rozpiznavati ob yekti nezalezhno vid perspektivi z yakoyi voni rozglyadayutsya Mensha kilkist parametriv oskilki kapsuli grupuyut nejroni zv yazki mizh sharami vimagayut menshoyi kilkosti parametriv Krashe uzagalnennya dlya novih tochok zoru CNN navcheni rozumiti obertannya chasto diznayutsya sho ob yekt mozhna rozglyadati odnakovo z dekilkoh riznih obertan Prote kapsulni merezhi krashe uzagalnyuyut novi tochki zoru oskilki matrici poz mozhut fiksuvati ci harakteristiki u viglyadi linijnih peretvoren Zahist vid atak bilogo yashika metod shvidkogo gradiyenta FGSM ye tipovim metodom dlya ataki na CNN Vin ocinyuye gradiyent kozhnogo pikselya shodo vtrati merezhi ta zminyuye kozhen piksel ne bilshe nizh na epsilon termin pomilki shob maksimizuvati vtrati Hocha cej metod mozhe rizko zniziti tochnist CNN napriklad nizhche 20 kapsulni merezhi zberigayut tochnist vishe 70 Povnistyu zgortkovi merezhi ne mozhut buti uzagalneni na nevivcheni tochki zoru krim peretvorennya Dlya inshih afinnih peretvoren abo detektori ob yektiv mayut povtoryuvatisya na sitci yaka zrostaye eksponencialno zi zbilshennyam kilkosti vimiryuvan peretvorennya abo rozmir poznachenogo navchalnogo naboru povinen eksponencialno rozshiryuvatisya shob ohopiti ci tochki zoru Ci eksponencialni stribki roblyat yih nepridatnimi dlya virishennya bilshih zavdan Matrici peretvorennya kapsulnih merezh vivchayut nezalezhni vid tochki zoru prostorovi vidnosini mizh chastinoyu i cilim sho dozvolyaye rozpiznavati cile na osnovi takih vidnosin Prote kapsulni merezhi pripuskayut sho v kozhnomu misci vidobrazhayetsya ne bilshe odnogo ekzemplyara ob yekta kapsuli Ce pripushennya dozvolyaye kapsuli vikoristovuvati rozpodilene predstavlennya vektor yiyi aktivnosti ob yekta dlya predstavlennya cogo ob yekta v comu misci Kapsulni merezhi vikoristovuyut nejronni aktivnosti yaki zminyuyutsya v zalezhnosti vid tochki zoru Yim ne potribno normalizuvati ob yekti yak u prostorovih merezhah peretvorennya i navit mozhut rozpiznavati bagatorazovo transformovani ob yekti Kapsulni merezhi takozh mozhut obroblyati segmentovani ob yekti Div takozhZgortkova nejronna merezha Dzhefri Ginton Baza danih MNISTZamitkaIn Hinton s own words this is wild speculation PrimitkiSabour Sara Frosst Nicholas Hinton Geoffrey E 26 zhovtnya 2017 Dynamic Routing Between Capsules arXiv 1710 09829 cs CV Hinton Geoffrey E Krizhevsky Alex Wang Sida D 14 chervnya 2011 Transforming Auto Encoders Lecture Notes in Computer Science angl T 6791 Springer Berlin Heidelberg s 44 51 CiteSeerX 10 1 1 220 5099 doi 10 1007 978 3 642 21735 7 6 ISBN 9783642217340 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite book title Shablon Cite book cite book a Proignorovano journal dovidka Srihari Sargur PDF Arhiv originalu PDF za 21 sichnya 2022 Procitovano 7 grudnya 2017 Hinton Geoffrey E Ghahramani Zoubin Teh Yee Whye 2000 Leen T K Muller K red PDF MIT Press s 463 469 Arhiv originalu PDF za 2 lipnya 2020 Procitovano 26 travnya 2022 Meher Vamsi 15 listopada 2017 arhiv originalu za 26 travnya 2022 procitovano 6 grudnya 2017 jhui github io Arhiv originalu za 18 kvitnya 2022 Procitovano 31 grudnya 2017 Tan Kendrick 10 listopada 2017 kndrck co angl Arhiv originalu za 7 travnya 2022 Procitovano 26 grudnya 2017 www physics drexel edu Arhiv originalu za 27 travnya 2018 Procitovano 31 grudnya 2017 PosilannyaGeoffrey Hinton Does the Brain do Inverse Graphics 3 veresnya 2020 u Wayback Machine Video 3 veresnya 2020 u Wayback Machine Geoffrey Hinton Does the Brain do Inverse Graphics 23 veresnya 2020 u Wayback Machine Slides 23 veresnya 2020 u Wayback Machine Dynamic Routing Between Capsules Matrix Capsules With EM Routing 10 chervnya 2019 u Wayback Machine February 2020 arhiv originalu za 26 travnya 2022 procitovano 23 zhovtnya 2020 Gram AI 8 grudnya 2017 arhiv originalu za 26 travnya 2022 procitovano 8 grudnya 2017 What s wrong with convolutional neural nets na YouTube www cedar buffalo edu Arhiv originalu za 21 sichnya 2022 Procitovano 7 grudnya 2017 Bourdakos Nick 12 lyutogo 2018 Understanding Capsule Networks AI s Alluring New Architecture freeCodeCamp org Procitovano 23 kvitnya 2019 Dai Jifeng Qi Haozhi Xiong Yuwen Li Yi Zhang Guodong Hu Han Wei Yichen 17 bereznya 2017 Deformable Convolutional Networks arXiv 1703 06211 cs CV De Brabandere Bert Jia Xu Tuytelaars Tinne Van Gool Luc 31 travnya 2016 Dynamic Filter Networks arXiv 1605 09673 cs LG Guo Xifeng 8 grudnya 2017 arhiv originalu za 26 travnya 2022 procitovano 8 grudnya 2017 Hinton Geoffrey Sabour Sara Frosst Nicholas November 2017 Arhiv originalu za 9 travnya 2022 Procitovano 26 travnya 2022 Hinton and Google Brain Capsule Networks na YouTube Liao Huadong 8 grudnya 2017 arhiv originalu za 26 travnya 2022 procitovano 8 grudnya 2017 Cai Fangyu 18 grudnya 2020 Medium angl Arhiv originalu za 26 travnya 2022 Procitovano 18 sichnya 2021 Sun Weiwei Tagliasacchi Andrea Deng Boyang Sabour Sara Yazdani Soroosh Hinton Geoffrey Yi Kwang Moo 8 grudnya 2020 Canonical Capsules Unsupervised Capsules in Canonical Pose arXiv 2012 04718 cs CV