Ува́га (англ. attention) на основі машинного навчання — це механізм, який інтуїтивно імітує когнітивну увагу. Він обчислює «м'які» (англ. "soft") ваги для кожного слова, точніше, для його вкладення, у . Ці ваги можливо обчислювати або паралельно (як у трансформерах), або послідовно (як у рекурентних нейронних мережах). «М'які» ваги можуть змінюватися протягом кожного виконання, на противагу до «жорстких» (англ. "hard") ваг, які тренують (наперед), тонко настроюють та залишають після цього замороженими.
Увагу розробили для подолання слабкостей використання інформації з рекурентних нейронних мереж. Рекурентні нейронні мережі віддають перевагу свіжішій інформації, що міститься в словах наприкінці речення, тоді як раніша інформація в реченні очікувано приглушується. Увага дозволяє обчисленню прихованого подання токена мати рівний доступ до будь-якої частини речення безпосередньо, а не лише через попередній прихований стан.
Раніші використання додавали цей механізм до послідовної системи мовного перекладу рекурентними нейронними мережами (нижче), але пізніші використання у великих мовних моделях трансформерів усунули рекурентні нейронні мережі, й покладалися значною мірою на швидшу паралельну схему уваги.
Попередники
Попередники цього механізму використовували в рекурентних нейронних мережах, які, проте, обчислювали «м'які» ваги послідовно, і на кожному кроці розглядали поточне слово й інші слова у контекстному вікні. Вони були відомі як мультиплікативні модулі (англ. multiplicative modules), вузли сигма-пі (англ. sigma pi units) та гіпермережі (англ. hyper-networks). Їх використовували в мережах довгої короткочасної пам'яті (ДКЧП), обробці мультисенсорних даних (звуку, зображень, відео та тексту) в персіверах, пам'яті контролера швидких ваг, завданнях міркування в [en], та в нейронних машинах Тюрінга.
Центральні обчислення
Мережу уваги розробили для встановлювання найвищих кореляцій між словами в реченні, виходячи з припущення, що вона навчилася цих закономірностей з тренувального корпусу. Ця кореляція фіксується в нейронних вагах через зворотне поширення, або з самокерованого попереднього тренування, або з керованого тонкого настроювання.
Наведений нижче приклад показує, як встановлюються кореляції, коли мережа натренована й має правильні ваги. Розглядаючи слово «that» в реченні «see that girl run», мережа повинна вміти встановити «girl» як слово з високою кореляцією. Для спрощення цей приклад зосереджено на слові «that», але насправді всі слова отримують таке ж оброблення паралельно, і результати м'яких ваг та контекстних векторів складаються в матриці для подальшого використання в конкретних завданнях.
Вектор запиту порівнюється (через скалярний добуток) із кожним словом у ключах. Це допомагає моделі виявляти найвідповідніше слово для слова запиту. В цьому випадку як найвідповідніше слову «that» було визначено слово «girl». Результат (розміру 4 в цьому випадку) проганяється крізь функцію softmax, даючи вектор розміру 4 з імовірностями, що дають у сумі 1. Перемноження його на матрицю значень дієво підсилює сигнал для найважливіших слів у реченні, й послаблює сигнал для менш важливих слів.
Структура даних входу вловлюється у вагах Qw та Kw, а ваги Vw виражають цю структуру в термінах змістовніших ознак для задачі, для якої здійснюється тренування. Через це складові голови уваги називають «запитом» (англ. Query, Q), «ключем» (англ. Key, K) та «значенням» (англ. Value, V) — вільна та можливо оманлива аналогія з системами реляційних баз даних.
Зауважте, що вектор контексту для «that» не залежить від векторів контексту для інших слів, тож вектори контексту для всіх слів можливо обчислювати, використовуючи всю матрицю X, яка містить всі вкладення слів, замість вектора x вкладення єдиного слова у наведеній вище формулі, відтак запаралелюючи обчислення. Тепер softmax можливо інтерпретувати як матричну softmax, що діє на окремі рядки. Це величезна перевага над рекурентними мережами, які мусять діяти послідовно.
Приклад мовного перекладу
Щоби побудувати машину, яка перекладає з англійської французькою, до звичайного кодувальника—декодувальника прищеплюють вузол уваги (схема нижче). В найпростішому випадку вузол уваги (англ. attention unit) складається зі скалярних добутків рекурентних станів кодувальника й не потребує тренування. На практиці вузол уваги складається з 3 тренованих повнозв'язних шарів нейронних мереж, званих запитом (англ. query), ключем (англ. key) та значенням (англ. value).
Мітка | Опис |
---|---|
100 | максимальна довжина речення |
300 | розмір вкладення (розмірність слова) |
500 | довжина прихованого вектора |
9k, 10k | розміри словників мов входу й виходу відповідно. |
x, Y | словникові вектори унітарного кодування розмірів 9k та 10k. x → x втілено як таблицю пошуку, а не векторне множення. Y це унітарний максимізувальник лінійного шару декодувальника D, тобто, він бере argmax виходу лінійного шару D. |
x | 300-елементний вектор вкладення слів. Ці вектори зазвичай обчислюють заздалегідь за допомогою інших проєктів, таких як GloVe чи Word2Vec. |
h | 500-елементний прихований вектор кодувальника. На кожному часовому кроці цей вектор узагальнює всі слова, що йому передували. Остаточний h можливо розглядати як вектор «речення» або [en], як його називає Гінтон. |
s | 500-елементний вектор прихованого стану декодувальника. |
E | 500-нейронний рекурентно-нейромережний кодувальник (англ. encoder). 500 виходів. Кількість входів становить 800: 300 з первинного вкладення + 500 з рекурентних зв'язків. Кодувальник здійснює пряму подачу до декодувальника лише щоби встановити його в початковий стан, але не після, тому цей прямий зв'язок заледве показано. |
D | 2-шаровий декодувальник (англ. decoder). Рекурентний шар має 500 нейронів, а повноз'єднаний лінійний шар має 10k нейронів (розмір цільового словника). Лише лінійний шар має 5 мільйонів (500 × 10k) ваг — приблизно вдесятеро більше за рекурентний. |
score | 100-елементна оцінка відповідності положення (англ. alignment score) |
w | 100-елементний вектор ваг уваги. Це — «м'які» ваги, які змінюються під час прямого проходження, на противагу до «жорстких» нейронних ваг, які змінюються під час етапу навчання. |
A | Модуль уваги (англ. attention module) — це може бути скалярний добуток рекурентних станів, або повноз'єднані шари запит—ключ—значення. Вихід — 100-елементний вектор w. |
H | 500×100. 100 прихованих векторів h, об'єднаних у матрицю |
c | 500-елементний вектор контексту = H * w. c — лінійна комбінація векторів h, зважених w. |
Розглянуті як матриця, ваги уваги показують, як мережа підлаштовує своє зосередження відповідно до контексту.
I | love | you | |
je | 0.94 | 0.02 | 0.04 |
t' | 0.11 | 0.01 | 0.88 |
aime | 0.03 | 0.95 | 0.02 |
Цей погляд на ваги уваги торкається проблеми «поясненності» нейронних мереж. Мережі, що виконують дослівний переклад незалежно від порядку слів, показували би найвищі оцінки уздовж (головної) діагоналі матриці. Позадіагональне домінування показує, що механізм уваги є витонченішим. Під час першого проходження декодувальником 94 % ваги уваги припадає на перше англійське слово «I», тому мережа пропонує слово «je». На другому проході декодувальника 88 % ваги уваги припадає на третє англійське слово «you», тому вона пропонує «t'». На останньому проході 95 % ваги уваги припадає на друге англійське слово «love», тому вона пропонує «aime».
Варіанти
М'які ваги втілено багатьма варіантами уваги, такими як
- «внутрішні центри уваги» (англ. "internal spotlights of attention"), породжувані програмувальниками швидких ваг або контролерами швидких ваг (1992) (відомі також як трансформери з «лінеаризованою самоувагою», англ. "linearized self-attention"). Повільна нейронна мережа вчиться за допомогою градієнтного спуску програмувати швидкі ваги іншої нейронної мережі через тензорні добутки самопороджуваних шаблонів збудження, званих «FROM» та «TO», які в трансформеровій термінології називають «ключем» (англ. "key") та «значенням» (англ. "value"). Це відображення уваги (англ. attention mapping) швидкими вагами застосовують до запитів (англ. queries).
- Увага в стилі Багданова (англ. Bahdanau-style Attention), яку також називають адитивною увагою (англ. additive attention)
- Увага в стилі Луонга (англ. Luong-style Attention), відома як мультиплікативна увага (англ. multiplicative attention),
- високорозпаралелювана самоувага (англ. self-attention), представлена 2016 року як розкладана самоувага (англ. decomposable attention), й успішно використана в трансформерах роком пізніше.
Для згорткових нейронних мереж механізми уваги можливо розрізняти за виміром, на якому вони працюють, а саме: просторова увага (англ. spatial attention), канальна увага (англ. channel attention), та комбінації.
Ці варіанти рекомбінують входи з боку кодувальника, щоби перерозподілювати ці впливи на кожен цільовий вихід. Часто коефіцієнти перезважування задає матриця скалярних добутків у стилі кореляції.
1. скалярний добуток кодувальника й декодувальника | 2. QKV кодувальника й декодувальника | 3. скалярний добуток лише кодувальника | 4. QKV лише кодувальника | 5. посібник Pytorch |
---|---|---|---|---|
Мітка | Опис |
---|---|
Змінні X, H, S, T | Змінні великими літерами подають все речення, а не лише поточне слово. Наприклад, H — це матриця прихованого стану кодувальника, по слову на стовпець |
S, T | S — прихований стан декодувальника; T — вкладення цільових слів. У посібнику Pytorch на етапі тренування T перемикається між двома джерелами залежно від використовуваного рівня вчителевого нав'язування. T може бути вкладенням слова виходу мережі, тобто вкладення(argmax(вихід FC)). Як альтернатива за вчителевого примусу, T може бути вкладенням відомого правильного слова, що може траплятися зі сталою ймовірністю примусу, скажімо, 1/2. |
X, H | H — прихований стан кодувальника, X — вкладення слів входу. |
W | Коефіцієнти уваги |
Qw, Kw, Vw, FC | Вагові матриці для запиту (англ. query), ключа (англ. key), значення (англ. value) відповідно. FC — повноз'єднана (англ. fully-connected) вагова матриця. |
⊕, ⊗ | ⊕ — векторна конкатенація; ⊗ — матричне множення. |
corr | Постовпчикова softmax(матриця всіх комбінацій скалярних добутків). Скалярні добутки це xi * xj у варіанті № 3, hi * sj у варіанті 1, стовпець i ( Kw * H ) * стовпець j ( Qw * S ) у варіанті 2, та стовпець i ( Kw * X ) * стовпець j ( Qw * X ) у варіанті 4. Варіант 5 для встановлення коефіцієнтів використовує повноз'єднаний шар. Якщо варіант з QKV, то скалярні добутки унормовують √d, де d — висота матриць QKV. |
Математичне подання
Стандартна масштабована скалярнодобуткова увага
де — матриці запиту, ключа та значення відповідно, — розмірність ключів. Вектори значень у матриці зважують за допомогою ваг, отриманих в результаті операції softmax.
Багатоголова увага
де кожна з голів обчислюється як
а та — матриці параметрів.
Багданова (адитивна) увага
де , а та — навчані вагові матриці.
Луонгова увага (загальна)
де — навчана вагова матриця.
Див. також
- (Трансформер (архітектура глибокого навчання) § Ефективне втілення)
Примітки
- Rumelhart, David E.; Mcclelland, James L.; Group, PDP Research (29 липня 1987). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (англ.). Cambridge, Mass: Bradford Books. ISBN .
- Yann Lecun (2020). Deep Learning course at NYU, Spring 2020, video lecture Week 6 (англ.). Подія сталася на 53:00. Процитовано 8 березня 2022.
- Schmidhuber, Jürgen (1992). Learning to control fast-weight memories: an alternative to recurrent nets. Neural Computation (англ.). 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
- Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago; Agapiou, John; Badia, Adrià Puigdomènech; Hermann, Karl Moritz; Zwols, Yori; Ostrovski, Georg; Cain, Adam; King, Helen; Summerfield, Christopher; Blunsom, Phil; Kavukcuoglu, Koray; Hassabis, Demis (12 жовтня 2016). Hybrid computing using a neural network with dynamic external memory. Nature (англ.). 538 (7626): 471—476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
- ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; ; Kaiser, Łukasz; Polosukhin, Illia (2017). Attention is All you Need (PDF). Advances in Neural Information Processing Systems (англ.). Curran Associates, Inc. 30.
- Ramachandran, Prajit; Parmar, Niki; Vaswani, Ashish; Bello, Irwan; Levskaya, Anselm; Shlens, Jonathon (13 червня 2019). Stand-Alone Self-Attention in Vision Models (англ.). arXiv:1906.05909 [cs.CV].
- Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (22 червня 2021). Perceiver: General Perception with Iterative Attention (англ.). arXiv:2103.03206 [cs.CV].
- Ray, Tiernan. Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything. ZDNet (англ.). Процитовано 19 серпня 2021.
- Britz, Denny; Goldie, Anna; Luong, Minh-Thanh; Le, Quoc (21 березня 2017). Massive Exploration of Neural Machine Translation Architectures (англ.). arXiv:1703.03906 [cs.CV].
- Pytorch.org seq2seq tutorial (англ.). Процитовано 2 грудня 2021.
- Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473 [cs.CL].
- Schmidhuber, Jürgen (1993). Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets. ICANN 1993 (англ.). Springer. с. 460—463.
- Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021 (англ.). Springer. с. 9355—9366.
- Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz; Kaiser, Lukasz; Belanger, David; Colwell, Lucy; Weller, Adrian (2020). Rethinking Attention with Performers (англ.). arXiv:2009.14794 [cs.CL].
- Luong, Minh-Thang (20 вересня 2015). Effective Approaches to Attention-Based Neural Machine Translation (англ.). arXiv:1508.04025v5 [cs.CL].
- Papers with Code - A Decomposable Attention Model for Natural Language Inference. paperswithcode.com (англ.).
- Zhu, Xizhou; Cheng, Dazhi; Zhang, Zheng; Lin, Stephen; Dai, Jifeng (2019). An Empirical Study of Spatial Attention Mechanisms in Deep Networks. 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (англ.). с. 6687—6696. arXiv:1904.05873. doi:10.1109/ICCV.2019.00679. ISBN . S2CID 118673006.
- Hu, Jie; Shen, Li; Sun, Gang (2018). Squeeze-and-Excitation Networks. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (англ.). с. 7132—7141. arXiv:1709.01507. doi:10.1109/CVPR.2018.00745. ISBN . S2CID 206597034.
- Woo, Sanghyun; Park, Jongchan; Lee, Joon-Young; Kweon, In So (18 липня 2018). CBAM: Convolutional Block Attention Module (англ.). arXiv:1807.06521 [cs.CV].
- Georgescu, Mariana-Iuliana; Ionescu, Radu Tudor; Miron, Andreea-Iuliana; Savencu, Olivian; Ristea, Nicolae-Catalin; Verga, Nicolae; Khan, Fahad Shahbaz (12 жовтня 2022). Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes for Medical Image Super-Resolution (англ.). arXiv:2204.04218 [eess.IV].
- Neil Rhodes (2021). CS 152 NN—27: Attention: Keys, Queries, & Values (англ.). Подія сталася на 06:30. Процитовано 22 грудня 2021.
- Alfredo Canziani & Yann Lecun (2021). NYU Deep Learning course, Spring 2020 (англ.). Подія сталася на 05:30. Процитовано 22 грудня 2021.
- Alfredo Canziani & Yann Lecun (2021). NYU Deep Learning course, Spring 2020 (англ.). Подія сталася на 20:15. Процитовано 22 грудня 2021.
- Robertson, Sean. NLP From Scratch: Translation With a Sequence To Sequence Network and Attention. pytorch.org (англ.). Процитовано 22 грудня 2021.
Посилання
- [en] and James H. Martin (2022) Speech and Language Processing (3rd ed. draft, January 2022), ch. 10.4 Attention and ch. 9.7 Self-Attention Networks: Transformers (англ.)
- [en] (4 травня 2020 р.), Attention and Memory in Deep Learning (відеолекція), DeepMind / UCL, на YouTube (англ.)
- Rasa Algorithm Whiteboard - Attention на YouTube (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Uva ga angl attention na osnovi mashinnogo navchannya ce mehanizm yakij intuyitivno imituye kognitivnu uvagu Vin obchislyuye m yaki angl soft vagi dlya kozhnogo slova tochnishe dlya jogo vkladennya u Ci vagi mozhlivo obchislyuvati abo paralelno yak u transformerah abo poslidovno yak u rekurentnih nejronnih merezhah M yaki vagi mozhut zminyuvatisya protyagom kozhnogo vikonannya na protivagu do zhorstkih angl hard vag yaki trenuyut napered tonko nastroyuyut ta zalishayut pislya cogo zamorozhenimi Uvagu rozrobili dlya podolannya slabkostej vikoristannya informaciyi z rekurentnih nejronnih merezh Rekurentni nejronni merezhi viddayut perevagu svizhishij informaciyi sho mistitsya v slovah naprikinci rechennya todi yak ranisha informaciya v rechenni ochikuvano priglushuyetsya Uvaga dozvolyaye obchislennyu prihovanogo podannya tokena mati rivnij dostup do bud yakoyi chastini rechennya bezposeredno a ne lishe cherez poperednij prihovanij stan Ranishi vikoristannya dodavali cej mehanizm do poslidovnoyi sistemi movnogo perekladu rekurentnimi nejronnimi merezhami nizhche ale piznishi vikoristannya u velikih movnih modelyah transformeriv usunuli rekurentni nejronni merezhi j pokladalisya znachnoyu miroyu na shvidshu paralelnu shemu uvagi PoperednikiPoperedniki cogo mehanizmu vikoristovuvali v rekurentnih nejronnih merezhah yaki prote obchislyuvali m yaki vagi poslidovno i na kozhnomu kroci rozglyadali potochne slovo j inshi slova u kontekstnomu vikni Voni buli vidomi yak multiplikativni moduli angl multiplicative modules vuzli sigma pi angl sigma pi units ta gipermerezhi angl hyper networks Yih vikoristovuvali v merezhah dovgoyi korotkochasnoyi pam yati DKChP obrobci multisensornih danih zvuku zobrazhen video ta tekstu v persiverah pam yati kontrolera shvidkih vag zavdannyah mirkuvannya v en ta v nejronnih mashinah Tyuringa Centralni obchislennyaMerezhu uvagi rozrobili dlya vstanovlyuvannya najvishih korelyacij mizh slovami v rechenni vihodyachi z pripushennya sho vona navchilasya cih zakonomirnostej z trenuvalnogo korpusu Cya korelyaciya fiksuyetsya v nejronnih vagah cherez zvorotne poshirennya abo z samokerovanogo poperednogo trenuvannya abo z kerovanogo tonkogo nastroyuvannya Navedenij nizhche priklad pokazuye yak vstanovlyuyutsya korelyaciyi koli merezha natrenovana j maye pravilni vagi Rozglyadayuchi slovo that v rechenni see that girl run merezha povinna vmiti vstanoviti girl yak slovo z visokoyu korelyaciyeyu Dlya sproshennya cej priklad zoseredzheno na slovi that ale naspravdi vsi slova otrimuyut take zh obroblennya paralelno i rezultati m yakih vag ta kontekstnih vektoriv skladayutsya v matrici dlya podalshogo vikoristannya v konkretnih zavdannyah Pidmerezhi Q ta K odniyeyi golovi uvagi angl attention head obchislyuyut m yaki vagi sho vihodyat zi slova that variant QKV lishe koduvalnika Rechennya nadsilayetsya kriz 3 paralelni potoki livoruch yaki zlivayutsya v kinci u vektor kontekstu angl context vector pravoruch Rozmir vkladannya sliv 300 a kilkist nejroniv u kozhnij pidmerezhi golovi uvagi 100 Velika litera X poznachuye matricyu rozmiru 4 300 sho skladayetsya z vkladen usih chotiroh sliv Malenka pidkreslena litera x poznachuye vektor vkladennya rozmiru 300 slova that Golova uvagi mistit tri pidmerezhi rozmisheni na ilyustraciyi vertikalno kozhna z yakih maye 100 nejroniv z vagovoyu matriceyu rozmiru 300 100 Zirochka v duzhkah poznachuye softmax qKT 100 tobto she ne pomnozhene na matricyu V Peremasshtabuvannya na 100 zapobigaye visokij dispersiyi v qKT yaka dozvolyala bi yedinomu slovu nadmirno dominuvati v softmax prizvodyachi do uvagi lishe do odnogo slova yak ce robiv bi diskretnij zhorstkij maksimum Zapis zapisana zvichnim chinom poryadko va formula softmax vishe pokladaye sho vektori ye ryadkami sho superechit standartnomu matematichnomu zapisovi stovpchikovih vektoriv Korektnishe mi povinni vzyati transponuvannya vektoru konteksta j vikoristovuvati postovpchikovu softmax sho dalo bi korektnishij viglyad Context XVW T softmax KW XT xQw T 100 Vektor zapitu porivnyuyetsya cherez skalyarnij dobutok iz kozhnim slovom u klyuchah Ce dopomagaye modeli viyavlyati najvidpovidnishe slovo dlya slova zapitu V comu vipadku yak najvidpovidnishe slovu that bulo viznacheno slovo girl Rezultat rozmiru 4 v comu vipadku proganyayetsya kriz funkciyu softmax dayuchi vektor rozmiru 4 z imovirnostyami sho dayut u sumi 1 Peremnozhennya jogo na matricyu znachen diyevo pidsilyuye signal dlya najvazhlivishih sliv u rechenni j poslablyuye signal dlya mensh vazhlivih sliv Struktura danih vhodu vlovlyuyetsya u vagah Qw ta Kw a vagi Vw virazhayut cyu strukturu v terminah zmistovnishih oznak dlya zadachi dlya yakoyi zdijsnyuyetsya trenuvannya Cherez ce skladovi golovi uvagi nazivayut zapitom angl Query Q klyuchem angl Key K ta znachennyam angl Value V vilna ta mozhlivo omanliva analogiya z sistemami relyacijnih baz danih Zauvazhte sho vektor kontekstu dlya that ne zalezhit vid vektoriv kontekstu dlya inshih sliv tozh vektori kontekstu dlya vsih sliv mozhlivo obchislyuvati vikoristovuyuchi vsyu matricyu X yaka mistit vsi vkladennya sliv zamist vektora x vkladennya yedinogo slova u navedenij vishe formuli vidtak zaparalelyuyuchi obchislennya Teper softmax mozhlivo interpretuvati yak matrichnu softmax sho diye na okremi ryadki Ce velichezna perevaga nad rekurentnimi merezhami yaki musyat diyati poslidovno Priklad movnogo perekladuShobi pobuduvati mashinu yaka perekladaye z anglijskoyi francuzkoyu do zvichajnogo koduvalnika dekoduvalnika prisheplyuyut vuzol uvagi shema nizhche V najprostishomu vipadku vuzol uvagi angl attention unit skladayetsya zi skalyarnih dobutkiv rekurentnih staniv koduvalnika j ne potrebuye trenuvannya Na praktici vuzol uvagi skladayetsya z 3 trenovanih povnozv yaznih shariv nejronnih merezh zvanih zapitom angl query klyuchem angl key ta znachennyam angl value source source source source source source source source Pokrokova poslidovnist movnogo perekladu Koduvalnik dekoduvalnik z uvagoyu Liva chastina chorni liniyi ce koduvalnik dekoduvalnik serednya chastina pomaranchevi liniyi ce vuzol uvagi a prava chastina sira j kolorova ce obchislyuvani dani Siri oblasti v matici H ta vektori w ce nulovi znachennya Chislovi nizhni indeksi vkazuyut romiri vektoriv todi yak literni nizhni indeksi i ta i 1 vkazuyut chasovi kroki Umovni poznachennya Mitka Opis 100 maksimalna dovzhina rechennya 300 rozmir vkladennya rozmirnist slova 500 dovzhina prihovanogo vektora 9k 10k rozmiri slovnikiv mov vhodu j vihodu vidpovidno x Y slovnikovi vektori unitarnogo koduvannya rozmiriv 9k ta 10k x x vtileno yak tablicyu poshuku a ne vektorne mnozhennya Y ce unitarnij maksimizuvalnik linijnogo sharu dekoduvalnika D tobto vin bere argmax vihodu linijnogo sharu D x 300 elementnij vektor vkladennya sliv Ci vektori zazvichaj obchislyuyut zazdalegid za dopomogoyu inshih proyektiv takih yak GloVe chi Word2Vec h 500 elementnij prihovanij vektor koduvalnika Na kozhnomu chasovomu kroci cej vektor uzagalnyuye vsi slova sho jomu pereduvali Ostatochnij h mozhlivo rozglyadati yak vektor rechennya abo en yak jogo nazivaye Ginton s 500 elementnij vektor prihovanogo stanu dekoduvalnika E 500 nejronnij rekurentno nejromerezhnij koduvalnik angl encoder 500 vihodiv Kilkist vhodiv stanovit 800 300 z pervinnogo vkladennya 500 z rekurentnih zv yazkiv Koduvalnik zdijsnyuye pryamu podachu do dekoduvalnika lishe shobi vstanoviti jogo v pochatkovij stan ale ne pislya tomu cej pryamij zv yazok zaledve pokazano D 2 sharovij dekoduvalnik angl decoder Rekurentnij shar maye 500 nejroniv a povnoz yednanij linijnij shar maye 10k nejroniv rozmir cilovogo slovnika Lishe linijnij shar maye 5 miljoniv 500 10k vag priblizno vdesyatero bilshe za rekurentnij score 100 elementna ocinka vidpovidnosti polozhennya angl alignment score w 100 elementnij vektor vag uvagi Ce m yaki vagi yaki zminyuyutsya pid chas pryamogo prohodzhennya na protivagu do zhorstkih nejronnih vag yaki zminyuyutsya pid chas etapu navchannya A Modul uvagi angl attention module ce mozhe buti skalyarnij dobutok rekurentnih staniv abo povnoz yednani shari zapit klyuch znachennya Vihid 100 elementnij vektor w H 500 100 100 prihovanih vektoriv h ob yednanih u matricyu c 500 elementnij vektor kontekstu H w c linijna kombinaciya vektoriv h zvazhenih w Rozglyanuti yak matricya vagi uvagi pokazuyut yak merezha pidlashtovuye svoye zoseredzhennya vidpovidno do kontekstu I love you je 0 94 0 02 0 04 t 0 11 0 01 0 88 aime 0 03 0 95 0 02 Cej poglyad na vagi uvagi torkayetsya problemi poyasnennosti nejronnih merezh Merezhi sho vikonuyut doslivnij pereklad nezalezhno vid poryadku sliv pokazuvali bi najvishi ocinki uzdovzh golovnoyi diagonali matrici Pozadiagonalne dominuvannya pokazuye sho mehanizm uvagi ye vitonchenishim Pid chas pershogo prohodzhennya dekoduvalnikom 94 vagi uvagi pripadaye na pershe anglijske slovo I tomu merezha proponuye slovo je Na drugomu prohodi dekoduvalnika 88 vagi uvagi pripadaye na tretye anglijske slovo you tomu vona proponuye t Na ostannomu prohodi 95 vagi uvagi pripadaye na druge anglijske slovo love tomu vona proponuye aime VariantiM yaki vagi vtileno bagatma variantami uvagi takimi yak vnutrishni centri uvagi angl internal spotlights of attention porodzhuvani programuvalnikami shvidkih vag abo kontrolerami shvidkih vag 1992 vidomi takozh yak transformeri z linearizovanoyu samouvagoyu angl linearized self attention Povilna nejronna merezha vchitsya za dopomogoyu gradiyentnogo spusku programuvati shvidki vagi inshoyi nejronnoyi merezhi cherez tenzorni dobutki samoporodzhuvanih shabloniv zbudzhennya zvanih FROM ta TO yaki v transformerovij terminologiyi nazivayut klyuchem angl key ta znachennyam angl value Ce vidobrazhennya uvagi angl attention mapping shvidkimi vagami zastosovuyut do zapitiv angl queries Uvaga v stili Bagdanova angl Bahdanau style Attention yaku takozh nazivayut aditivnoyu uvagoyu angl additive attention Uvaga v stili Luonga angl Luong style Attention vidoma yak multiplikativna uvaga angl multiplicative attention visokorozparalelyuvana samouvaga angl self attention predstavlena 2016 roku yak rozkladana samouvaga angl decomposable attention j uspishno vikoristana v transformerah rokom piznishe Dlya zgortkovih nejronnih merezh mehanizmi uvagi mozhlivo rozriznyati za vimirom na yakomu voni pracyuyut a same prostorova uvaga angl spatial attention kanalna uvaga angl channel attention ta kombinaciyi Ci varianti rekombinuyut vhodi z boku koduvalnika shobi pererozpodilyuvati ci vplivi na kozhen cilovij vihid Chasto koeficiyenti perezvazhuvannya zadaye matricya skalyarnih dobutkiv u stili korelyaciyi 1 skalyarnij dobutok koduvalnika j dekoduvalnika 2 QKV koduvalnika j dekoduvalnika 3 skalyarnij dobutok lishe koduvalnika 4 QKV lishe koduvalnika 5 posibnik Pytorch Dlya obchislennya uvagi potribni yak koduvalnik tak i dekoduvalnik Dlya obchislennya uvagi potribni yak koduvalnik tak i dekoduvalnik Dekoduvalnik dlya obchislennya uvagi ne vikoristovuyut Iz yedinim vhodom do corr W ye avtokorelyaciyeyu skalyarnih dobutkiv wij xi xj Dekoduvalnik dlya obchislennya uvagi ne vikoristovuyut Zamist skalyarnodobutkovoyi korelyaciyi dlya obchislennya uvagi vikoristovuyut povnoz yednanij angl fully connected shar Umovni poznachennya Mitka Opis Zminni X H S T Zminni velikimi literami podayut vse rechennya a ne lishe potochne slovo Napriklad H ce matricya prihovanogo stanu koduvalnika po slovu na stovpec S T S prihovanij stan dekoduvalnika T vkladennya cilovih sliv U posibniku Pytorch na etapi trenuvannya T peremikayetsya mizh dvoma dzherelami zalezhno vid vikoristovuvanogo rivnya vchitelevogo nav yazuvannya T mozhe buti vkladennyam slova vihodu merezhi tobto vkladennya argmax vihid FC Yak alternativa za vchitelevogo primusu T mozhe buti vkladennyam vidomogo pravilnogo slova sho mozhe traplyatisya zi staloyu jmovirnistyu primusu skazhimo 1 2 X H H prihovanij stan koduvalnika X vkladennya sliv vhodu W Koeficiyenti uvagi Qw Kw Vw FC Vagovi matrici dlya zapitu angl query klyucha angl key znachennya angl value vidpovidno FC povnoz yednana angl fully connected vagova matricya vektorna konkatenaciya matrichne mnozhennya corr Postovpchikova softmax matricya vsih kombinacij skalyarnih dobutkiv Skalyarni dobutki ce xi xj u varianti 3 hi sj u varianti 1 stovpec i Kw H stovpec j Qw S u varianti 2 ta stovpec i Kw X stovpec j Qw X u varianti 4 Variant 5 dlya vstanovlennya koeficiyentiv vikoristovuye povnoz yednanij shar Yaksho variant z QKV to skalyarni dobutki unormovuyut d de d visota matric QKV Matematichne podannya Standartna masshtabovana skalyarnodobutkova uvaga Attention Q K V softmax Q K T d k V displaystyle text Attention Q K V text softmax left frac QK T sqrt d k right V de Q K V displaystyle Q K V matrici zapitu klyucha ta znachennya vidpovidno d k displaystyle d k rozmirnist klyuchiv Vektori znachen u matrici V displaystyle V zvazhuyut za dopomogoyu vag otrimanih v rezultati operaciyi softmax Bagatogolova uvaga MultiHead Q K V Concat head 1 head h W O displaystyle text MultiHead Q K V text Concat text head 1 text head h W O de kozhna z goliv obchislyuyetsya yakhead i Attention Q W i Q K W i K V W i V displaystyle text head i text Attention QW i Q KW i K VW i V a W i Q W i K W i V displaystyle W i Q W i K W i V ta W O displaystyle W O matrici parametriv Bagdanova aditivna uvaga Attention Q K V softmax e V displaystyle text Attention Q K V text softmax e V de e tanh W Q Q W K K displaystyle e tanh W Q Q W K K a W Q displaystyle W Q ta W K displaystyle W K navchani vagovi matrici Luongova uvaga zagalna Attention Q K V softmax Q W a K T V displaystyle text Attention Q K V text softmax QW a K T V de W a displaystyle W a navchana vagova matricya Div takozhTransformer arhitektura glibokogo navchannya Efektivne vtilennyaPrimitkiRumelhart David E Mcclelland James L Group PDP Research 29 lipnya 1987 Parallel Distributed Processing Volume 1 Explorations in the Microstructure of Cognition Foundations Chapter 2 PDF angl Cambridge Mass Bradford Books ISBN 978 0 262 68053 0 Yann Lecun 2020 Deep Learning course at NYU Spring 2020 video lecture Week 6 angl Podiya stalasya na 53 00 Procitovano 8 bereznya 2022 Schmidhuber Jurgen 1992 Learning to control fast weight memories an alternative to recurrent nets Neural Computation angl 4 1 131 139 doi 10 1162 neco 1992 4 1 131 S2CID 16683347 Graves Alex Wayne Greg Reynolds Malcolm Harley Tim Danihelka Ivo Grabska Barwinska Agnieszka Colmenarejo Sergio Gomez Grefenstette Edward Ramalho Tiago Agapiou John Badia Adria Puigdomenech Hermann Karl Moritz Zwols Yori Ostrovski Georg Cain Adam King Helen Summerfield Christopher Blunsom Phil Kavukcuoglu Koray Hassabis Demis 12 zhovtnya 2016 Hybrid computing using a neural network with dynamic external memory Nature angl 538 7626 471 476 Bibcode 2016Natur 538 471G doi 10 1038 nature20101 ISSN 1476 4687 PMID 27732574 S2CID 205251479 Shazeer Noam Parmar Niki Uszkoreit Jakob Jones Llion Kaiser Lukasz Polosukhin Illia 2017 Attention is All you Need PDF Advances in Neural Information Processing Systems angl Curran Associates Inc 30 Ramachandran Prajit Parmar Niki Vaswani Ashish Bello Irwan Levskaya Anselm Shlens Jonathon 13 chervnya 2019 Stand Alone Self Attention in Vision Models angl arXiv 1906 05909 cs CV Jaegle Andrew Gimeno Felix Brock Andrew Zisserman Andrew Vinyals Oriol Carreira Joao 22 chervnya 2021 Perceiver General Perception with Iterative Attention angl arXiv 2103 03206 cs CV Ray Tiernan Google s Supermodel DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything ZDNet angl Procitovano 19 serpnya 2021 Britz Denny Goldie Anna Luong Minh Thanh Le Quoc 21 bereznya 2017 Massive Exploration of Neural Machine Translation Architectures angl arXiv 1703 03906 cs CV Pytorch org seq2seq tutorial angl Procitovano 2 grudnya 2021 Bahdanau Dzmitry Cho Kyunghyun Bengio Yoshua 2014 Neural Machine Translation by Jointly Learning to Align and Translate arXiv 1409 0473 cs CL Schmidhuber Jurgen 1993 Reducing the ratio between learning complexity and number of time varying variables in fully recurrent nets ICANN 1993 angl Springer s 460 463 Schlag Imanol Irie Kazuki Schmidhuber Jurgen 2021 Linear Transformers Are Secretly Fast Weight Programmers ICML 2021 angl Springer s 9355 9366 Choromanski Krzysztof Likhosherstov Valerii Dohan David Song Xingyou Gane Andreea Sarlos Tamas Hawkins Peter Davis Jared Mohiuddin Afroz Kaiser Lukasz Belanger David Colwell Lucy Weller Adrian 2020 Rethinking Attention with Performers angl arXiv 2009 14794 cs CL Luong Minh Thang 20 veresnya 2015 Effective Approaches to Attention Based Neural Machine Translation angl arXiv 1508 04025v5 cs CL Papers with Code A Decomposable Attention Model for Natural Language Inference paperswithcode com angl Zhu Xizhou Cheng Dazhi Zhang Zheng Lin Stephen Dai Jifeng 2019 An Empirical Study of Spatial Attention Mechanisms in Deep Networks 2019 IEEE CVF International Conference on Computer Vision ICCV angl s 6687 6696 arXiv 1904 05873 doi 10 1109 ICCV 2019 00679 ISBN 978 1 7281 4803 8 S2CID 118673006 Hu Jie Shen Li Sun Gang 2018 Squeeze and Excitation Networks 2018 IEEE CVF Conference on Computer Vision and Pattern Recognition angl s 7132 7141 arXiv 1709 01507 doi 10 1109 CVPR 2018 00745 ISBN 978 1 5386 6420 9 S2CID 206597034 Woo Sanghyun Park Jongchan Lee Joon Young Kweon In So 18 lipnya 2018 CBAM Convolutional Block Attention Module angl arXiv 1807 06521 cs CV Georgescu Mariana Iuliana Ionescu Radu Tudor Miron Andreea Iuliana Savencu Olivian Ristea Nicolae Catalin Verga Nicolae Khan Fahad Shahbaz 12 zhovtnya 2022 Multimodal Multi Head Convolutional Attention with Various Kernel Sizes for Medical Image Super Resolution angl arXiv 2204 04218 eess IV Neil Rhodes 2021 CS 152 NN 27 Attention Keys Queries amp Values angl Podiya stalasya na 06 30 Procitovano 22 grudnya 2021 Alfredo Canziani amp Yann Lecun 2021 NYU Deep Learning course Spring 2020 angl Podiya stalasya na 05 30 Procitovano 22 grudnya 2021 Alfredo Canziani amp Yann Lecun 2021 NYU Deep Learning course Spring 2020 angl Podiya stalasya na 20 15 Procitovano 22 grudnya 2021 Robertson Sean NLP From Scratch Translation With a Sequence To Sequence Network and Attention pytorch org angl Procitovano 22 grudnya 2021 Posilannya en and James H Martin 2022 Speech and Language Processing 3rd ed draft January 2022 ch 10 4 Attention and ch 9 7 Self Attention Networks Transformers angl en 4 travnya 2020 r Attention and Memory in Deep Learning videolekciya DeepMind UCL na YouTube angl Rasa Algorithm Whiteboard Attention na YouTube angl