Ця стаття посилається на . (лютий 2024) |
Трансфо́рмер (англ. Transformer) — це архітектура глибокого навчання, що ґрунтується на механізмі багатоголової уваги, запропонована в статті 2017 року «Увага — це все, що вам треба». Вона не має рекурентних вузлів, і відтак вимагає менше часу на тренування, ніж попередні рекурентні нейронні архітектури, як-от довга короткочасна пам'ять (ДКЧП), і її пізнішу видозміну широко використовують для тренування великих мовних моделей на великих (мовних) наборах даних, як-от корпусі Вікіпедії та [en]. Вхідний текст розбивається на n-грами, закодовані як [en], й кожен токен перетворюється на вектор за допомогою пошуку таблицею вкладення слів. На кожному шарі кожен токен відтак узгоджується в межах контекстного вікна з контекстом інших (немаскованих) токенів за допомогою паралельного механізму багатоголової уваги, що дозволяє підсилювати сигнал для ключових токенів, і пригнічувати менш важливі токени. Стаття про трансформер, опублікована 2017 року, ґрунтується на механізмі уваги на основі softmax, запропонованому 2014 року Багдановим зі співавт. для машинного перекладу, а подібний до трансформера контролер швидких ваг (англ. Fast Weight Controller) було запропоновано 1992 року.
Цю архітектуру тепер використовують не лише в обробці природної мови та комп'ютернім баченні, але й в обробці звуку та мультимодальній обробці. Вона також призвела до розробки попередньо натренованих систем, таких як породжувальні попередньо натреновані трансформери (англ. generative pre-trained transformers, GPT) та BERT (англ. Bidirectional Encoder Representations from Transformers, двоспрямовані кодувальні подання з трансформерів).
Хронологія
- 1990 року мережа Елмана, використовуючи рекурентну нейронну мережу, кодувала кожне слово в тренувальному наборі як вектор, званий вкладенням слова, і весь словник як векторну базу даних, дозволяючи виконувати такі завдання, як передбачування послідовностей, що виходять за межі можливостей простого багатошарового перцептрону. Недоліком цих статичних вкладень було те, що вони не робили розрізнення між декількома значеннями слів, які пишуться однаково.
- 1992 року Юрген Шмідхубер опублікував контролер швидких ваг (англ. Fast Weight Controller). Він навчається відповідати на запити, програмуючи ваги уваги іншої нейронної мережі через тензорні добутки векторів ключів і векторів значень, званих FROM і TO. Пізніше було показано, що контролер швидких ваг еквівалентний ненормованому лінійному трансформерові. Термінологію «навчання внутрішніх центрів уваги» (англ. "learning internal spotlights of attention") було введено 1993 року.
- 1993 року для статистичного машинного перекладу використовували [en].
- 1997 року було запропоновано предтечу великої мовної моделі, яка використовувала рекурентні нейронні мережі, як-от довгу короткочасну пам'ять.
- 2001 року для уоднозначнювання слів використовували зібраний з Інтернету великий текстовий корпус на один мільярд слів, який на той час називали «дуже-дуже великим».
- 2012 року AlexNet продемонструвала ефективність великих нейронних мереж для розпізнавання зображень, заохотивши підхід великих штучних нейронних мереж замість старіших, статистичних підходів.
- 2014 року Суцкевер зі співавт. запропонували 380М-параметрову модель [en] для машинного перекладу, яка використовувала дві мережі ДКЧП. Її архітектура складається з двох частин. Кодувальник (англ. encoder) — це ДКЧП, яка бере послідовність токенів, і перетворює її на вектор. Декодувальник (англ. decoder) — це інша ДКЧП, яка перетворює вектор назад на послідовність токенів.
- 2014 року показало себе корисним використання вентилів у 130М-параметровій моделі [en], яка використовувала спрощені вентильні рекурентні вузли (ВРВ). Багданов зі співавт. показали, що ВРВ не кращі й не гірші за вентильну ДКЧП.
- 2014 року Багданов зі співавт. вдосконалили попередню модель seq2seq, використавши механізм уваги «адитивного» типу між двома мережами ДКЧП. Проте це ще не був розпаралелюваний (масштабований «скалярнодобутковий») тип уваги, який згодом запропоновали в статті про трансформери 2017 року.
- 2015 року Луонг зі співавт. оцінили відносну продуктивність архітектур моделей глобальної та локальної (віконної) уваги, змішана архітектура уваги виявилася здатною покращити переклади, пропоновані архітектурою Багданова, в той час як використання архітектури локальної уваги скоротило час перекладу.
- 2016 року в Перекладачі Google поступово замінили старіший підхід статистичного машинного перекладу новішим підходом на основі нейронних мереж, що містив модель seq2seq, поєднану з ДКЧП й механізмом уваги «адитивного» типу. Вони досягли вищого рівня продуктивності, ніж статистичний підхід, розробка якого тривала десять років, лише за дев'ять місяців.
- 2017 року в статті «Увага — це все, що вам треба» запропонували оригінальну (розміру 100М) кодувально-декодувальну трансформерну модель зі швидшим (розпаралелюваним або розкладаним) механізмом уваги. Оскільки ця модель мала труднощі зі збіжністю, запропоновали, що темп навчання повинен лінійно збільшуватися від 0 до максимального значення на першій частині тренування (тобто 2 % від загальної кількості кроків тренування). Метою трансформерної моделі було взяти модель seq2seq й усунути її рекурентні нейронні мережі, але зберегти її механізм адитивної уваги.
- 2018 року в статті про ELMo обробляли все речення перед тим, як призначувати вектор вкладення кожному слову. Для обчислення таких глибоких контекстних вкладень для кожного зі слів використали двоспрямовану ДКЧП, покращивши цей напрямок досліджень відносно моделі «торба слів» та word2vec.
- 2018 року трансформер з лише кодувальником використали в моделі BERT (розміром понад 1 мільярд), покращивши результати ELMo.
- 2020 року зоровий трансформер (англ. vision transformer) та підсилений згорткою трансформер для обробки мовлення перевершили рекурентні нейронні мережі, які використовували раніше для бачення й мовлення.
- 2020 року Сюн зі співавт. розв'язали труднощі оригінального трансформера зі збіжністю шляхом нормування шарів перед багатоголовою увагою (а не після неї). Це називають трансформером перед-ШН (англ. pre-LN).
- 2023 року односпрямовані («авторегресійні») трансформери використовували в GPT-3 (розміром понад 100 мільярдів) та інших моделях GPT OpenAI.
Попередники
Перед трансформерами попередників механізму уваги додали до вентильних рекурентних нейронних мереж, як-от ДКЧП та вентильних рекурентних вузлів (ВРВ), які обробляли набори даних послідовно. Залежність від обчислень попередніх токенів перешкоджала їхній здатності розпаралелювати механізм уваги. 1992 року як альтернативу рекурентним нейронним мережам запропонували контролер швидких ваг, який може навчатися «внутрішніх центрів уваги» (англ. "internal spotlights of attention"). Теоретично, інформація від одного токену може поширюватися довільно далеко вниз за послідовністю, але на практиці проблема зникання градієнту лишає стан моделі наприкінці довгого речення без точної, добутної інформації про попередні токени.
Продуктивність старих моделей покращили доданням механізму уваги, який дозволив моделі мати доступ до будь-якої попередньої точки вздовж послідовності. Шар уваги зважує всі попередні стани відповідно до навченої міри доречності, надаючи доречну інформацію про віддалені токени. Це виявилося особливо корисним у мовному перекладі, де для значення слова в реченні може бути важливим віддалений контекст. Вектор стану був доступним лише після обробки останнього англійського слова, наприклад, під час перекладу його з французької моделлю ДКЧП. Хоча теоретично такий вектор зберігає інформацію про все оригінальне речення, на практиці ця інформація зберігається погано. Якщо додано механізм уваги, декодувальник отримує доступ до векторів стану кожного вхідного слова, а не лише останнього, й може навчитися ваг уваги, які вказують, скільки уваги приділяти кожному вхідному вектору стану. Розширення моделей [en] механізмом уваги вперше втілили в контексті машинного перекладу Багданов, Чо та Бенжіо 2014 року.
Розкладна увага
2016 року високорозпаралелювану розкладну увагу (англ. decomposable attention) успішно поєднали з мережею прямого поширення. Це вказувало на те, що механізми уваги були потужними самі по собі, й що послідовна рекурентна обробка даних не була необхідною для досягнення приросту якості рекурентних нейронних мереж з увагою. 2017 року Васвані зі співавт. також запропонували замінити рекурентні нейронні мережі самоувагою й розпочали зусилля щодо оцінки цієї ідеї. Трансформери, використовуючи механізм уваги, обробляючи всі токени одночасно, розраховували «м'які» ваги між ними на послідовних шарах. Оскільки механізм уваги використовує інформацію лише про інші токени з нижчих шарів, його можливо обчислювати для всіх токенів паралельно, що призводить до покращення швидкості тренування.
Тренування
Методи стабілізування тренування
Архітектура звичайного трансформера мала труднощі зі збіжністю. У первинній статті автори радили використовувати прогрівання темпу навчання. Тобто, темп навчання повинен лінійно збільшуватися від 0 до максимального значення на першій частині тренування (зазвичай радять 2 % від загальної кількості кроків тренування), перш ніж знову зменшуватися.
Праця 2020 виявила, що використання перед (а не після) багатоголової уваги та шарів прямого поширення стабілізує тренування, не вимагаючи прогрівання темпу навчання.
Модель GT3 поєднує CWTE, SWTE та TTE за допомогою самопристосовного вентильного шару, уможливлюючи ефективне й дієве злиття трьох типів ознак для наскрізного керованого текстом передбачування ринку акцій.
Попереднє тренування — тонке настроювання
Трансформери, як правило, підлягають самокерованому навчанню, що складається з некерованого попереднього тренування, з наступним керованим тонким настроюванням. Попереднє тренування, як правило, виконують на більшому наборі даних, ніж тонке настроювання, через обмежену доступність [en] тренувальних даних. До задач попереднього тренування та тонкого настроювання зазвичай належать:
- моделювання мов
- передбачування наступного речення
- відповідання на питання
- розуміння прочитаного
- аналіз тональності
- перефразовування
У статті про трансформер T5 задокументовано велику кількість завдань для попереднього тренування. Деякі приклади:
- відновлення пошкодженого тексту:
Thank you <X> me to your party <Y> week.
-><X> for inviting <Y> last <Z>
, де<Z>
означає «кінець виведення». - переклад:
translate English to German: That is good.
->Das ist gut.
. - оцінка граматичної прийнятності речення:
cola sentence: The course is jumping well.
->not acceptable
.
Застосування
Трансформер досяг великого успіху в обробці природної мови (ОПМ), наприклад, у задачах машинного перекладу та передбачування часових рядів. Багато великих мовних моделей, як-от GPT-2, GPT-3, GPT-4, (Claude), BERT, XLNet, RoBERTa та ChatGPT, демонструють здатність трансформерів виконувати широкий спектр пов'язаних з ОПМ завдань, і мають потенціал знаходити застосування в реальному світі. До них можуть належати:
- машинний переклад
- реферування документів
- породжування документів
- розпізнавання іменованих сутностей (РІС)
- [en]
- написання комп'ютерного коду на основі вимог, висловлених природною мовою
- розуміння відео.
Окрім застосувань в ОПМ, він також досяг успіху в інших галузях, серед яких комп'ютерне бачення та застосування у згортанні білків (як-от [en]).
Як ілюстративний приклад, Ithaca — це трансформер з лише кодувальником із трьома головами виходу. Він бере на вході давньогрецькі написи як послідовності символів, але з нерозбірливими символами, заміненими на «-». Його три голови виходу відповідно виводять розподіли ймовірностей над грецькими символами, місцезнаходженням напису, та його датою.
Втілення
Трансформерову модель було втілено в стандартних системах глибокого навчання, як-от TensorFlow та PyTorch.
Transformers — бібліотека, яку надає Hugging Face, і яка пропонує архітектури на основі трансформерів та попередньо натреновані моделі.
Архітектура
Всі трансформери мають однакові основні складові:
- Токенувальники, які перетворюють текст на токени.
- Єдиний шар вкладення, який перетворює токени та положення токенів на векторні подання.
- Трансформувальні шари, які виконують повторювані перетворення над векторними поданнями, виділяючи все більше й більше мовознавчої інформації. Вони складаються з почергових шарів уваги та прямого поширення.
- (необов'язковий) Шар роз-вкладення, який перетворює остаточні векторні подання назад на розподіл імовірності над токенами.
Трансформувальні шари можуть бути одного з двох типів, кодувальник (англ. encoder) та декодувальник (англ. decoder). У первинній статті використовували обидва типи, тоді як пізніші моделі містили лише один з них. BERT — приклад лише кодувальникової моделі, GPT — лише декодувальникові моделі.
Вхід
Вхідний текст розбирає на токени токенувальник, найчастіше використовують токенувальник [en], і кожен токен перетворюється на вектор шляхом пошуку в таблиці вкладення слів. Потім до вкладення слова додається позиційна інформація токена.
Кодувально—декодувальна архітектура
Подібно до раніших моделей [en], оригінальна модель трансформера використовувала кодува́льно—декодува́льну (англ. encoder-decoder) архітектуру. Кодувальник складається з кодувальних шарів, що оброблюють токени входу ітеративно, шар за шаром, тоді як декодувальник складається з декодувальних шарів, які ітеративно оброблюють вихід кодувальника, а також токени виходу декодувальника до цього моменту.
Функція кожного кодувального шару полягає в породжуванні контекстуалізованих подань токенів, в яких кожне подання відповідає токену, який «примішує» інформацію з інших токенів входу через механізм самоуваги. Кожен декодувальний шар містить два підшари уваги: (1) перехресну увагу для охоплення виходу кодувальника (контекстуалізованих подань токенів входу) та (2) самоувагу для «примішування» інформації з-поміж токенів входу до цього декодувальника (тобто токенів, породжених до цього моменту під час висновування).
Як кодувальні, так і декодувальні шари мають нейронну мережу прямого поширення для додаткової обробки виходів, та містять за́лишкові з'єднання й кроки шарового нормування (англ. layer normalization).
Масштабована скалярнодобуткова увага
Будівельними блоками трансформера є вузли масштабованої скалярнодобуткової уваги (англ. scaled dot-product attention units). Для кожного вузла уваги трансформерна модель навчається трьох вагових матриць: ваг запиту (англ. query weights) , ваг ключа (англ. key weights) , та ваг значення (англ. value weights) . Для кожного токена подання токена множиться на кожну з цих трьох матриць, даючи вектор запиту , вектор ключа , та вектор значення . Ваги уваги обчислюються з використанням векторів запиту та ключа: вага уваги з боку токена до токена є скалярним добутком на . Ваги уваги ділять на квадратний корінь розміру векторів ключа, , що стабілізує градієнти під час тренування, та пропускають через softmax, що унормовує ці ваги. Той факт, що та є різними матрицями, дає увазі можливість бути несиметричною: якщо токен звертає увагу на токен (тобто, є великим), то це не обов'язково означає, що токен звертає увагу на токен (тобто, може бути малим). Вихід вузла уваги для токена це зважена сума векторів значення всіх токенів, зважених на , увагу з боку токена до кожного з токенів.
Обчислення уваги (англ. attention) для всіх токенів можливо виразити одним великим матричним обчисленням з використанням функції softmax, що корисно для тренування завдяки обчислювальним оптимізаціям матричних операцій, які обчислюють матричні операції швидко. Матриці , та визначено як матриці, в яких -ті рядки є векторами , та відповідно. Тоді увагу можливо подати як
де softmax береться над горизонтальною віссю.
Багатоголова увага
Один набір матриць називають головою уваги (англ. attention head), й кожен шар у трансформерній моделі має декілька голів уваги. В той час як кожна з голів уваги звертає увагу на токени, доречні для кожного з токенів, декілька голів уваги дозволяють моделі робити це для різних визначень «доречності». Крім того, поле впливу, що подає доречність, може поступово розширюватися в послідовних шарах. Багато трансформерних голів уваги кодують відношення доречності, змістовні для людей. Наприклад, одні голови можуть звертати найбільше уваги на наступне слово, в той час як інші переважно звертають увагу дієслів на їхні безпосередні об'єкти. Обчислення для всіх голів уваги можуть виконуватися паралельно, що уможливлює швидку обробку. Виходи шару уваги зчіплюють, щоби передавати їх до шарів нейронних мереж прямого поширення.
Конкретно, покладімо, що декілька голів уваги проіндексовано через , тоді маємо де матриця — зчеплення вкладень слів, матриці — «проєкційні матриці», що належать окремій голові уваги , а — кінцева проєкційна матриця, що належить всій багатоголовій структурі уваги.
Маскована увага
Може бути необхідно вирізати зв'язки уваги між деякими парами слів. Наприклад, декодувальник для позиції токена не повинен мати доступу до позиції токена . Цього можливо досягти перед етапом softmax додаванням матриці маски (англ. mask matrix) , що має значення у місцях, де зв'язок уваги має бути обрізано, й в інших місцях:
Кодувальник
Кожен кодувальник (англ. encoder) складається з двох головних складових: механізму самоуваги (англ. self-attention mechanism), та нейронної мережі прямого поширення. Механізм самоуваги приймає кодування входів з попереднього кодувальника, та зважує їхню доречність одне одному, щоби породити кодування виходів. Нейронна мережа прямого поширення здійснює подальшу обробку кодування кожного виходу окремо. Ці кодування виходів відтак передають наступному кодувальникові як його вхід, так само як і декодувальникам.
Перший кодувальник отримує як вхід не кодування, а позиційну інформацію та вкладення послідовності входу. Позиційна інформація необхідна трансформерові, щоби використовувати порядок послідовності, оскільки жодна інша частина трансформера його не використовує.
Кодувальник двоспрямований. Увага може звертатися на токени, розташовані як до, так і після поточного токена. Токени використовують замість слів для врахування (багатозначності).
Позиційне кодування
Позиційне кодування (англ. positional encoding) — це векторне подання фіксованого розміру, що охоплює відносні позиції токенів у цільовій послідовності: воно надає моделі трансформера інформацію про те, де знаходяться слова у вхідній послідовності.
Позиційне кодування визначають як функцію типу , де — додатне парне ціле число. Повне позиційне кодування, як визначено в первинній статті, задається рівнянням де .
Тут, — вільний параметр, який повинен бути значно більшим за найбільше , яке вводитимуть до функції позиційного кодування. У первинній статті автори обрали .
Ця функція має простіший вигляд при записі як комплексна функція типу де .
Основна причина, через яку автори обрали цю функцію за позиційне кодування, полягає в тому, що вона дозволяє виконувати зміщення як лінійні перетворення: де — відстань, на яку потрібно здійснити зміщення. Це дозволяє трансформерові брати будь-яку закодовану позицію й знаходити кодування позиції на n кроків вперед або назад за допомогою множення матриць.
Беручи лінійну суму, будь-яку згортку також можливо втілити як лінійні перетворення:для будь-яких сталих . Це дозволяє трансформерові брати будь-яку закодовану позицію й знаходити лінійну суму закодованих позицій її сусідів. Ця сума закодованих позицій, коли її подати до механізму уваги, створюватиме ваги уваги на її сусідах, дуже подібно до того, що відбувається в моделі мови на згортковій нейронній мережі. За словами авторів, «ми припустили, що це дозволить моделі легко навчатися звертати увагу за відносною позицією».
У типових втіленнях усі операції здійснюються над дійсними числами, а не комплексними, але оскільки (множення комплексних чисел можливо втілити як множення дійснозначних матриць 2-на-2), то різниця лише в записі.
Декодувальник
Кожен декодувальник (англ. decoder) складається з трьох головних складових: механізму самоуваги, механізму уваги над кодуваннями, та нейронної мережі прямого поширення. Декодувальник працює подібно до кодувальника, але додатково вставляється механізм уваги, що натомість дістає доречну інформацію з кодувань, породжених кодувальниками. Цей механізм також можуть називати кодувально-декодувальною увагою (англ. encoder-decoder attention).
Подібно до першого кодувальника, перший декодувальник бере як свій вхід не кодування, а позиційну інформацію та вкладення послідовності виходу. Трансформер мусить не використовувати для передбачування виходу поточний або майбутній вихід, тож послідовність виходу мусить бути частково масковано, щоби запобігти цьому зворотному потокові інформації. Це уможливлює авторегресійне породжування тексту. Для всіх голів уваги не можна звертати увагу на наступні токени. За крайнім декодувальником йде завершальне лінійне перетворення та шар softmax, щоби виробляти ймовірності виходу над словником.
Всі моделі серії GPT від OpenAI мають лише декодувальну архітектуру.
Термінологія
У великих мовних моделях термінологія дещо відрізняється від термінології, використаної в оригінальній статті про трансформер:
- «тільки кодувальник»: повний кодувальник, повний декодувальник.
- «кодувальник—декодувальник»: повний кодувальник, авторегресійний декодувальник.
- «тільки декодувальник»: авторегресійний кодувальник, авторегресійний декодувальник.
Тут «авторегресійний» означає, що до голови уваги вставляють маску для зануляння всієї уваги від одного токена до всіх токенів після нього, як описано в розділі «маскована увага».
Загалом, мовні моделі на основі трансформера існують двох типів: причинні (або «авторегресійні») та масковані. Серія GPT є причинною й лише декодувальною. BERT — маскована й лише кодувальна. Серія T5 кодувально—декодувальна, з повним кодувальником та авторегресійним декодувальником.
Наступні роботи
Альтернативні передавальні функції
Оригінальний трансформер використовує передавальну функцію ReLU. Було розроблено й інші передавальні функції активації, як-от SwiGLU.
Альтернативні позиційні кодування
Трансформери можуть використовувати й інші методи позиційного кодування, крім синусоїдного.
RoPE (англ. rotary positional embedding, поворотне позиційне вкладення), найкраще пояснювати, розглядаючи список 2-вимірних векторів . Виберімо деякий кут . Тоді кодування RoPE цеЕквівалентно, якщо записати 2-вимірні вектори як комплексні числа , то кодування RoPE це просто множення на кут:Для списку -вимірних векторів, кодувальник RoPE визначається послідовністю кутів . Тоді кодування RoPE застосовується до кожної пари координат.
Перевага RoPE полягає в тому, що скалярний добуток двох векторів залежить лише від їхнього відносного розташування:
для будь-якого цілого числа .
ALiBi (англ. Attention with Linear Biases, увага з лінійними зміщеннями) не є заміною для позиційного кодувальника в оригінальному трансформері. Натомість, це додатковий позиційний кодувальник, який безпосередньо підключається до механізму уваги. Конкретно, механізм уваги ALiBi цеТут — дійсне число («скаляр»), а — матриця лінійного зміщення (англ. linear bias), визначена якіншими словами, .
ALiBi дозволяє здійснювати попереднє тренування на коротких контекстних вікнах, а потім тонке настоювання на довших контекстних вікнах. Оскільки її безпосередньо підключено до механізму уваги, її можливо поєднувати з будь-яким позиційним кодувальником, який підключено до «низу» всієї мережі (де розташовано синусоїдний кодувальник оригінального трансформера, а також RoPE та багато інших).
Кодування відносних позицій (англ. Relative Position Encodings) подібні до ALiBi, але загальніші:де — матриця Тепліца, тобто за умови .
Ефективне втілення
FlashAttention
FlashAttention — це алгоритм, що ефективно втілює механізм уваги трансформера на ГП. Він виконує множення матриць блоками, таким чином, що кожен блок уміщається в кеш ГП, і завдяки ретельному управлінню блоками мінімізує копіювання даних між кешами ГП (оскільки переміщення даних повільне).
Покращену версію, FlashAttention-2, розробили для того, щоби задовольнити висхідний попит на мовні моделі, здатні обробляти довші контексти. Вона пропонує поліпшення в розподілі й розпаралелюванні роботи, дозволяючи досягати до 230 терафлопс/с на ГП A100 (FP16/[en]), що вдвічі швидше за оригінальний FlashAttention.
До ключових досягнень FlashAttention-2 належать зменшення не пов'язаних з множенням матриць операцій з рухомою комою, покращене розпаралелювання над виміром довжини послідовності, кращий розподіл роботи між (групами потоків) ГП, а також додаткова підтримка розмірів голів до 256 та багатозапитової (БЗУ, англ. multi-query attention, MQA) й групозапитової уваги (ГЗУ, англ. grouped-query attention, GQA).
Еталонні перевірки показали, що FlashAttention-2 в до 2 разів швидше за FlashAttention, і в до 9 разів швидше за стандартне втілення уваги в PyTorch. Серед майбутніх розробок — оптимізація для нового обладнання, як-от ГП H100, та нових типів даних, як-от FP8.
Багатозапитова увага
Багатозапитова увага (англ. Multi-Query Attention) змінює механізм багатоголової уваги. Тоді як традиційно
з багатозапитовою увагою, існує лише одне , тож
Це має нейтральний вплив на якість моделі та швидкість тренування, але підвищує швидкість висновування.
Спекулятивне декодування
Трансформери використовують у великих мовних моделях для авторегресійного породжування послідовностей: породжування потоку тексту, по одному токену за раз. Проте в більшості постановок декодування з мовних моделей впираються в пам'ять, що означає, що нам доступні вільні обчислювальні потужності. Спекулятивне декодування (англ. speculative decoding) використовує ці вільні обчислювальні потужності, обчислюючи декілька токенів паралельно. Подібно до спекулятивного виконання в ЦП, майбутні токени обчислюються паралельно, роблячи припущення щодо значень попередніх токенів, і пізніше відкидаються, якщо виявляється, що припущення були хибними.
Конкретніше, розгляньмо трансформерну модель на кшталт GPT-3 з розміром контекстного вікна 512. Для породження всього контекстного вікна авторегресійно з жадібним декодуванням її потрібно запускати 512 разів, кожного разу породжуючи токен . Проте, якби ми мали деяке обґрунтоване припущення щодо значень цих токенів, ми могли би перевіряти їх усі паралельно, за один запуск моделі, перевіряючи, що кожен справді є токеном із найвищою логарифмічною правдоподібністю на -тому виході.
При спекулятивному декодуванні використовують меншу модель або деяку іншу просту евристику для породження кількох спекулятивних токенів, які потім перевіряють більшою моделлю. Наприклад, припустімо, що мала́ модель породила чотири спекулятивні токени: . Ці токени пропускають крізь більшу модель, і приймаються лише та . Той же запуск великої моделі вже породив новий токен для заміни , а повністю відкидається. Процес потім повторюється (починаючи з 4-го токена) доки не буде породжено всі токени.
Для не жадібного декодування застосовують подібні ідеї, за винятком того, що спекулятивні токени приймають або відкидають стохастично, таким чином, що гарантується, що кінцевий розподіл виходу є таким самим, як якби спекулятивне декодування не використовувалось.
Субквадратичні трансформери
Тренування архітектур на трансформерній основі може бути витратним, особливо для довгих даних входу. До альтернативних архітектур належать Реформер (англ. Reformer, що знижує обчислювальне навантаження з до ), та моделі на кшталт ETC/BigBird (які можуть знижувати його до ), де — довжина послідовності. Це здійснюється за допомогою [en] та оборотних шарів (англ. reversible layers).
Звичайні трансформери вимагають обсягу пам'яті, квадратичного щодо розміру контекстного вікна. Трансформери без уваги (англ. attention-free transformers) знижують цю вимогу до лінійної залежності, зберігаючи при цьому переваги трансформера шляхом зв'язування ключа зі значенням.
Long Range Arena (укр. Арена далекобійності, 2020) — стандартний еталон для порівнювання поведінки трансформерних архітектур на довгих даних входу.
Увага з випадковими ознаками (англ. Random Feature Attention, 2021) використовує [en]:де — незалежні зразки з нормального розподілу . За цього вибору параметрів виконується , або Відповідно, одноголову увагу з одним запитом можливо записати як де . Аналогічно для кількох запитів, та для багатоголової уваги.
Це наближення можливо обчислювати за лінійний час, оскільки можливо спочатку обчислювати матрицю , а потім перемножувати її з запитом. По суті, нам вдалося отримати точнішу версію
Перформер (англ. Performer, 2022) використовує ту саму увагу з випадковими ознаками, але спочатку незалежно вибирають із нормального розподілу , а потім обробляють їх обробкою Грама — Шмідта.
Мультимодальність
Трансформери також можливо використовувати/пристосовувати й для інших модальностей (даних входу або виходу), крім тексту, зазвичай шляхом знаходження способу «токенувати» таку модальність.
Зорові трансформери (англ. vision transformers) пристосовують трансформер до комп'ютерного бачення, розбиваючи вхідні зображення на низку фрагментів, перетворюючи їх на вектори, й обробляючи їх як токени в стандартному трансформері.
Конформер (англ. Conformer) та пізніший Whisper дотримуються тієї ж схеми для розпізнавання мовлення, спочатку перетворюючи сигнал мовлення на спектрограму, яку потім обробляють як зображення, тобто розбивають на низку фрагментів, перетворюють на вектори, й обробляють як токени в стандартному трансформері.
Персівери (англ. Perceiver, укр. сприймач) від Ендрю Джейгла зі співавт. (2021) можуть навчатися з великих масивів гетерогенних даних.
Стосовно [en], Піблс зі співавт. запропонували дифузійний трансформер (ДиТ, англ. diffusion transformer, DiT), який полегшує використання трансформерної архітектури для виробляння зображень на основі дифузії. Також, Google випустила трансформероцентричний породжувач зображень під назвою «Муза» (англ. "Muse") на основі паралельного декодування й технології маскованого породжувального трансформера. (Трансформери відігравали не таку центральну роль у попередніх технологіях створення зображень, хоча й все ж значну.)
Див. також
Примітки
- ; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; ; Kaiser, Łukasz; Polosukhin, Illia (2017). Attention is All you Need (PDF). Advances in Neural Information Processing Systems (англ.). Curran Associates, Inc. 30.
- ; Schmidhuber, Jürgen (1 листопада 1997). Long Short-Term Memory. Neural Computation (англ.). 9 (8): 1735—1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
- Better Language Models and Their Implications. OpenAI (англ.). 14 лютого 2019. оригіналу за 19 грудня 2020. Процитовано 25 серпня 2019.
- Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (1 вересня 2014). Neural Machine Translation by Jointly Learning to Align and Translate (англ.). arXiv:1409.0473 [cs.CL].
- Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 серпня 2015). Effective Approaches to Attention-based Neural Machine Translation (англ.). arXiv:1508.04025 [cs.CL].
- Schmidhuber, Jürgen (1992). Learning to control fast-weight memories: an alternative to recurrent nets. Neural Computation (англ.). 4 (1): 131—139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
- Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021. Springer. с. 9355—9366.
- Katharopoulos, Angelos; Vyas, Apoorv; Pappas, Nikolaos; Fleuret, François (2020). Transformers are RNNs: Fast autoregressive Transformers with linear attention. ICML 2020 (англ.). PMLR. с. 5156—5165.
- He, Cheng (31 грудня 2021). Transformer in CV. Transformer in CV (англ.). Towards Data Science. оригіналу за 16 квітня 2023. Процитовано 19 червня 2021.
- Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). Robust Speech Recognition via Large-Scale Weak Supervision (англ.). arXiv:2212.04356 [eess.AS].
- Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (англ.). с. 38—45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
- Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. Google AI Blog (англ.). 2 листопада 2018. оригіналу за 13 січня 2021. Процитовано 25 серпня 2019.
- Elman, Jeffrey L. (березень 1990). Finding Structure in Time. Cognitive Science (англ.). 14 (2): 179—211. doi:10.1207/s15516709cog1402_1. S2CID 2763403.
- Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz; Kaiser, Lukasz; Belanger, David; Colwell, Lucy; Weller, Adrian (2020). Rethinking Attention with Performers (англ.). arXiv:2009.14794 [cs.CL].
- Schmidhuber, Juergen (26 березня 2021). (англ.). IDSIA, Switzerland. Архів оригіналу за 5 грудня 2023. Процитовано 29 грудня 2023.
- Schmidhuber, Jürgen (1993). Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets. ICANN 1993 (англ.). Springer. с. 460—463.
- Brown, Peter F. (1993). The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics (англ.) (19): 263—311.
- Banko, Michele; Brill, Eric (2001). Scaling to very very large corpora for natural language disambiguation. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01 (англ.). Morristown, NJ, USA: Association for Computational Linguistics: 26—33. doi:10.3115/1073012.1073017. S2CID 6645623.
- Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V (2014). Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems. Curran Associates, Inc. 27. arXiv:1409.3215.
- Cho, Kyunghyun; van Merrienboer, Bart; Bahdanau, Dzmitry; Bengio, Yoshua (2014). On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation (англ.). Stroudsburg, PA, USA: Association for Computational Linguistics: 103—111. arXiv:1409.1259. doi:10.3115/v1/w14-4012. S2CID 11336213.
- Chung, Junyoung; Gulcehre, Caglar; Cho, KyungHyun; Bengio, Yoshua (2014). Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling (англ.). arXiv:1412.3555 [cs.NE].
- Gruber, N.; Jockisch, A. (2020), Are GRU cells more specific and LSTM cells more sensitive in motive classification of text?, Frontiers in Artificial Intelligence (англ.), 3: 40, doi:10.3389/frai.2020.00040, PMC 7861254, PMID 33733157, S2CID 220252321
- Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (1 вересня 2014). Neural Machine Translation by Jointly Learning to Align and Translate (англ.). arXiv:1409.0473 [cs.CL].
- Google Scholar. scholar.google.com (англ.). Процитовано 13 серпня 2023.
- Lewis-Kraus, Gideon (14 грудня 2016). . The New York Times (амер.). ISSN 0362-4331. Архів оригіналу за 24 травня 2023. Процитовано 22 червня 2023.
- Wu, Yonghui та ін. (1 вересня 2016). Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (англ.). arXiv:1609.08144 [cs.CL].
- Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 жовтня 2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (англ.). arXiv:1810.04805v2 [cs.CL].
- Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 червня 2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (англ.). arXiv:2010.11929 [cs.CV].
- Gulati, Anmol; Qin, James; Chiu, Chung-Cheng; Parmar, Niki; Zhang, Yu; Yu, Jiahui; Han, Wei; Wang, Shibo; Zhang, Zhengdong; Wu, Yonghui; Pang, Ruoming (2020). Conformer: Convolution-augmented Transformer for Speech Recognition (англ.). arXiv:2005.08100 [eess.AS].
- Xiong, Ruibin; Yang, Yunchang; He, Di; Zheng, Kai; Zheng, Shuxin; Xing, Chen; Zhang, Huishuai; Lan, Yanyan; Wang, Liwei; Liu, Tie-Yan (29 червня 2020). On Layer Normalization in the Transformer Architecture (англ.). arXiv:2002.04745 [cs.LG].
- Improving language understanding with unsupervised learning. openai.com (амер.). 11 червня 2018. оригіналу за 18 березня 2023. Процитовано 18 березня 2023.
- finetune-transformer-lm (англ.), OpenAI, 11 червня 2018, процитовано 1 травня 2023
- Papers with Code – A Decomposable Attention Model for Natural Language Inference. paperswithcode.com (англ.).
- Chen, Jia; Chen, Tao; Shen, Mengqi; Shi, Yunhai; Wang, Dongjing; Zhang, Xin (1 вересня 2022). Gated three-tower transformer for text-driven stock market prediction. Multimedia Tools and Applications (англ.). 81 (21): 30093—30119. doi:10.1007/s11042-022-11908-1. ISSN 1573-7721. S2CID 247987240.
- Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (1 січня 2020). Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research (англ.). 21 (1): 140:5485–140:5551. arXiv:1910.10683. ISSN 1532-4435.
- Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). Precision information extraction for rare disease epidemiology at scale. Journal of Translational Medicine (англ.). 21 (1): 157. doi:10.1186/s12967-023-04011-y. PMC 9972634. PMID 36855134.
- Assael, Yannis; Sommerschield, Thea; Shillingford, Brendan; Bordbar, Mahyar; Pavlopoulos, John; Chatzipanagiotou, Marita; Androutsopoulos, Ion; Prag, Jonathan; de Freitas, Nando (березень 2022). Restoring and attributing ancient texts using deep neural networks. Nature (англ.). 603 (7900): 280—283. Bibcode:2022Natur.603..280A. doi:10.1038/s41586-022-04448-z. ISSN 1476-4687. PMC 8907065. PMID 35264762.
- Sequence Modeling with Neural Networks (Part 2): Attention Models. Indico (англ.). 18 квітня 2016. оригіналу за 21 жовтня 2020. Процитовано 15 жовтня 2019.
- Alammar, Jay. The Illustrated Transformer. jalammar.github.io (англ.). оригіналу за 18 жовтня 2020. Процитовано 15 жовтня 2019.
- Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (серпень 2019). What Does BERT Look at? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (англ.). Florence, Italy: Association for Computational Linguistics: 276—286. arXiv:1906.04341. doi:10.18653/v1/W19-4828. оригіналу за 21 жовтня 2020. Процитовано 20 травня 2020.
- LeCun, Yann (28 квітня 2023). . Twitter (англ.). Архів оригіналу за 23 червня 2023. Процитовано 23 червня 2023.
- Masked language modeling. huggingface.co (англ.). Процитовано 5 жовтня 2023.
- Causal language modeling. huggingface.co (англ.). Процитовано 5 жовтня 2023.
- Shazeer, Noam (1 лютого 2020). GLU Variants Improve Transformer (англ.). arXiv:2002.05202 [cs.LG].
- Dufter, Philipp; Schmitt, Martin; Schütze, Hinrich (6 червня 2022). Position Information in Transformers: An Overview. Computational Linguistics (англ.). 48 (3): 733—763. arXiv:2102.11090. doi:10.1162/coli_a_00445. ISSN 0891-2017. S2CID 231986066.
- Su, Jianlin; Lu, Yu; Pan, Shengfeng; Murtadha, Ahmed; Wen, Bo; Liu, Yunfeng (1 квітня 2021). RoFormer: Enhanced Transformer with Rotary Position Embedding (англ.). arXiv:2104.09864 [cs.CL].
- Press, Ofir; Smith, Noah A.; Lewis, Mike (1 серпня 2021). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation (англ.). arXiv:2108.12409 [cs.CL].
- Shaw, Peter; Uszkoreit, Jakob; Vaswani, Ashish (2018). Self-Attention with Relative Position Representations (англ.). arXiv:1803.02155 [cs.CL].
- Dao, Tri; Fu, Dan; Ermon, Stefano; Rudra, Atri; Ré, Christopher (6 грудня 2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. Advances in Neural Information Processing Systems (англ.). 35: 16344—16359. arXiv:2205.14135.
- Stanford CRFM. crfm.stanford.edu (англ.). Процитовано 18 липня 2023.
- FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. Princeton NLP (англ.). 17 червня 2023. Процитовано 18 липня 2023.
- Introducing Together AI Chief Scientist Tri Dao, as he releases FlashAttention-2 to speed up model training and inference. TOGETHER (амер.). Процитовано 18 липня 2023.
- Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; Bosma, Maarten; Mishra, Gaurav; Roberts, Adam; Barham, Paul; Chung, Hyung Won; Sutton, Charles; Gehrmann, Sebastian; Schuh, Parker; Shi, Kensen; Tsvyashchenko, Sasha; Maynez, Joshua; Rao, Abhishek (1 квітня 2022). PaLM: Scaling Language Modeling with Pathways (англ.). arXiv:2204.02311 [cs.CL].
- Leviathan, Yaniv; Kalman, Matan; Matias, Yossi (18 травня 2023), Fast Inference from Transformers via Speculative Decoding (англ.), arXiv:2211.17192
- Fu, Yao (13 грудня 2023). Towards 100x Speedup: Full Stack Transformer Inference Optimization (англ.).
- Chen, Charlie; Borgeaud, Sebastian; Irving, Geoffrey; Lespiau, Jean-Baptiste; Sifre, Laurent; Jumper, John (2 лютого 2023), Accelerating Large Language Model Decoding with Speculative Sampling (англ.), arXiv:2302.01318
- Kitaev, Nikita; Kaiser, Łukasz; Levskaya, Anselm (2020). Reformer: The Efficient Transformer (англ.). arXiv:2001.04451 [cs.LG].
- Constructing Transformers For Longer Sequences with Sparse Attention Methods. Google AI Blog (англ.). 25 березня 2021. оригіналу за 18 вересня 2021. Процитовано 28 травня 2021.
- Tasks with Long Sequences – Chatbot. Coursera (англ.). оригіналу за 26 жовтня 2020. Процитовано 22 жовтня 2020.
- Reformer: The Efficient Transformer. Google AI Blog (англ.). 16 січня 2020. оригіналу за 22 жовтня 2020. Процитовано 22 жовтня 2020.
- Zhai, Shuangfei; Talbott, Walter; Srivastava, Nitish; Huang, Chen; Goh, Hanlin; Zhang, Ruixiang; Susskind, Josh (21 вересня 2021). An Attention Free Transformer (англ.). arXiv:2105.14103 [cs.LG].
- Tay, Yi; Dehghani, Mostafa; Abnar, Samira; Shen, Yikang; Bahri, Dara; Pham, Philip; Rao, Jinfeng; Yang, Liu; Ruder, Sebastian; Metzler, Donald (8 листопада 2020). Long Range Arena: A Benchmark for Efficient Transformers (англ.). arXiv:2011.04006 [cs.LG].
- Peng, Hao; Pappas, Nikolaos; Yogatama, Dani; Schwartz, Roy; Smith, Noah A.; Kong, Lingpeng (19 березня 2021). Random Feature Attention (англ.). arXiv:2103.02143 [cs.CL].
- Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Belanger, David; Colwell, Lucy; Weller, Adrian (30 вересня 2020). Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers (англ.). arXiv:2006.03555 [cs.LG].
- Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). Robust Speech Recognition via Large-Scale Weak Supervision (англ.). arXiv:2212.04356 [eess.AS].
- Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (22 червня 2021). Perceiver: General Perception with Iterative Attention (англ.). arXiv:2103.03206 [cs.CV].
- Jaegle, Andrew; Borgeaud, Sebastian; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalin; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrew; Shelhamer, Evan; Hénaff, Olivier (2 серпня 2021). Perceiver IO: A General Architecture for Structured Inputs & Outputs (англ.). arXiv:2107.14795 [cs.LG].
- Peebles, William; Xie, Saining (2 березня 2023). Scalable Diffusion Models with Transformers (англ.). arXiv:2212.09748 [cs.CV].
- Google AI Unveils Muse, a New Text-to-Image Transformer Model. InfoQ (англ.).
- Using Diffusion Models to Create Superior NeRF Avatars (англ.). 5 січня 2023.
- Islam, Arham (14 листопада 2022). How Do DALL·E 2, Stable Diffusion, and Midjourney Work? (англ.).
Література
- Hubert Ramsauer et al. (2020), "Hopfield Networks is All You Need" [ 18 вересня 2021 у Wayback Machine.], сигнальний примірник, поданий для ICLR 2021. arXiv:2008.02217; див. також блог [ 18 вересня 2021 у Wayback Machine.] авторів. (англ.)
- — Обговорення дії трансформерного шару як еквіваленту гопфілдового уточнення, що наближує вхід до однієї з нерухомих точок (образів подання) неперервнозначної мережі Гопфілда.
- Alexander Rush, The Annotated transformer [ 22 вересня 2021 у Wayback Machine.], Harvard NLP group, 3 квітня 2018 (англ.)
- Phuong, Mary; Hutter, Marcus (2022), Formal Algorithms for Transformers (англ.), arXiv:2207.09238
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Cya stattya posilayetsya na pervinni dzherela Bud laska udoskonalte yiyi dodavshi posilannya na nezalezhni vtorinni chi tretinni dzherela lyutij 2024 Transfo rmer angl Transformer ce arhitektura glibokogo navchannya sho gruntuyetsya na mehanizmi bagatogolovoyi uvagi zaproponovana v statti 2017 roku Uvaga ce vse sho vam treba Vona ne maye rekurentnih vuzliv i vidtak vimagaye menshe chasu na trenuvannya nizh poperedni rekurentni nejronni arhitekturi yak ot dovga korotkochasna pam yat DKChP i yiyi piznishu vidozminu shiroko vikoristovuyut dlya trenuvannya velikih movnih modelej na velikih movnih naborah danih yak ot korpusi Vikipediyi ta en Vhidnij tekst rozbivayetsya na n grami zakodovani yak en j kozhen token peretvoryuyetsya na vektor za dopomogoyu poshuku tabliceyu vkladennya sliv Na kozhnomu shari kozhen token vidtak uzgodzhuyetsya v mezhah kontekstnogo vikna z kontekstom inshih nemaskovanih tokeniv za dopomogoyu paralelnogo mehanizmu bagatogolovoyi uvagi sho dozvolyaye pidsilyuvati signal dlya klyuchovih tokeniv i prignichuvati mensh vazhlivi tokeni Stattya pro transformer opublikovana 2017 roku gruntuyetsya na mehanizmi uvagi na osnovi softmax zaproponovanomu 2014 roku Bagdanovim zi spivavt dlya mashinnogo perekladu a podibnij do transformera kontroler shvidkih vag angl Fast Weight Controller bulo zaproponovano 1992 roku Cyu arhitekturu teper vikoristovuyut ne lishe v obrobci prirodnoyi movi ta komp yuternim bachenni ale j v obrobci zvuku ta multimodalnij obrobci Vona takozh prizvela do rozrobki poperedno natrenovanih sistem takih yak porodzhuvalni poperedno natrenovani transformeri angl generative pre trained transformers GPT ta BERT angl Bidirectional Encoder Representations from Transformers dvospryamovani koduvalni podannya z transformeriv Hronologiya1990 roku merezha Elmana vikoristovuyuchi rekurentnu nejronnu merezhu koduvala kozhne slovo v trenuvalnomu nabori yak vektor zvanij vkladennyam slova i ves slovnik yak vektornu bazu danih dozvolyayuchi vikonuvati taki zavdannya yak peredbachuvannya poslidovnostej sho vihodyat za mezhi mozhlivostej prostogo bagatosharovogo perceptronu Nedolikom cih statichnih vkladen bulo te sho voni ne robili rozriznennya mizh dekilkoma znachennyami sliv yaki pishutsya odnakovo 1992 roku Yurgen Shmidhuber opublikuvav kontroler shvidkih vag angl Fast Weight Controller Vin navchayetsya vidpovidati na zapiti programuyuchi vagi uvagi inshoyi nejronnoyi merezhi cherez tenzorni dobutki vektoriv klyuchiv i vektoriv znachen zvanih FROM i TO Piznishe bulo pokazano sho kontroler shvidkih vag ekvivalentnij nenormovanomu linijnomu transformerovi Terminologiyu navchannya vnutrishnih centriv uvagi angl learning internal spotlights of attention bulo vvedeno 1993 roku 1993 roku dlya statistichnogo mashinnogo perekladu vikoristovuvali en 1997 roku bulo zaproponovano predtechu velikoyi movnoyi modeli yaka vikoristovuvala rekurentni nejronni merezhi yak ot dovgu korotkochasnu pam yat 2001 roku dlya uodnoznachnyuvannya sliv vikoristovuvali zibranij z Internetu velikij tekstovij korpus na odin milyard sliv yakij na toj chas nazivali duzhe duzhe velikim 2012 roku AlexNet prodemonstruvala efektivnist velikih nejronnih merezh dlya rozpiznavannya zobrazhen zaohotivshi pidhid velikih shtuchnih nejronnih merezh zamist starishih statistichnih pidhodiv 2014 roku Suckever zi spivavt zaproponuvali 380M parametrovu model en dlya mashinnogo perekladu yaka vikoristovuvala dvi merezhi DKChP Yiyi arhitektura skladayetsya z dvoh chastin Koduvalnik angl encoder ce DKChP yaka bere poslidovnist tokeniv i peretvoryuye yiyi na vektor Dekoduvalnik angl decoder ce insha DKChP yaka peretvoryuye vektor nazad na poslidovnist tokeniv 2014 roku pokazalo sebe korisnim vikoristannya ventiliv u 130M parametrovij modeli en yaka vikoristovuvala sprosheni ventilni rekurentni vuzli VRV Bagdanov zi spivavt pokazali sho VRV ne krashi j ne girshi za ventilnu DKChP 2014 roku Bagdanov zi spivavt vdoskonalili poperednyu model seq2seq vikoristavshi mehanizm uvagi aditivnogo tipu mizh dvoma merezhami DKChP Prote ce she ne buv rozparalelyuvanij masshtabovanij skalyarnodobutkovij tip uvagi yakij zgodom zaproponovali v statti pro transformeri 2017 roku 2015 roku Luong zi spivavt ocinili vidnosnu produktivnist arhitektur modelej globalnoyi ta lokalnoyi vikonnoyi uvagi zmishana arhitektura uvagi viyavilasya zdatnoyu pokrashiti perekladi proponovani arhitekturoyu Bagdanova v toj chas yak vikoristannya arhitekturi lokalnoyi uvagi skorotilo chas perekladu 2016 roku v Perekladachi Google postupovo zaminili starishij pidhid statistichnogo mashinnogo perekladu novishim pidhodom na osnovi nejronnih merezh sho mistiv model seq2seq poyednanu z DKChP j mehanizmom uvagi aditivnogo tipu Voni dosyagli vishogo rivnya produktivnosti nizh statistichnij pidhid rozrobka yakogo trivala desyat rokiv lishe za dev yat misyaciv 2017 roku v statti Uvaga ce vse sho vam treba zaproponuvali originalnu rozmiru 100M koduvalno dekoduvalnu transformernu model zi shvidshim rozparalelyuvanim abo rozkladanim mehanizmom uvagi Oskilki cya model mala trudnoshi zi zbizhnistyu zaproponovali sho temp navchannya povinen linijno zbilshuvatisya vid 0 do maksimalnogo znachennya na pershij chastini trenuvannya tobto 2 vid zagalnoyi kilkosti krokiv trenuvannya Metoyu transformernoyi modeli bulo vzyati model seq2seq j usunuti yiyi rekurentni nejronni merezhi ale zberegti yiyi mehanizm aditivnoyi uvagi 2018 roku v statti pro ELMo obroblyali vse rechennya pered tim yak priznachuvati vektor vkladennya kozhnomu slovu Dlya obchislennya takih glibokih kontekstnih vkladen dlya kozhnogo zi sliv vikoristali dvospryamovanu DKChP pokrashivshi cej napryamok doslidzhen vidnosno modeli torba sliv ta word2vec 2018 roku transformer z lishe koduvalnikom vikoristali v modeli BERT rozmirom ponad 1 milyard pokrashivshi rezultati ELMo 2020 roku zorovij transformer angl vision transformer ta pidsilenij zgortkoyu transformer dlya obrobki movlennya perevershili rekurentni nejronni merezhi yaki vikoristovuvali ranishe dlya bachennya j movlennya 2020 roku Syun zi spivavt rozv yazali trudnoshi originalnogo transformera zi zbizhnistyu shlyahom normuvannya shariv pered bagatogolovoyu uvagoyu a ne pislya neyi Ce nazivayut transformerom pered ShN angl pre LN 2023 roku odnospryamovani avtoregresijni transformeri vikoristovuvali v GPT 3 rozmirom ponad 100 milyardiv ta inshih modelyah GPT OpenAI Poperedniki Pered transformerami poperednikiv mehanizmu uvagi dodali do ventilnih rekurentnih nejronnih merezh yak ot DKChP ta ventilnih rekurentnih vuzliv VRV yaki obroblyali nabori danih poslidovno Zalezhnist vid obchislen poperednih tokeniv pereshkodzhala yihnij zdatnosti rozparalelyuvati mehanizm uvagi 1992 roku yak alternativu rekurentnim nejronnim merezham zaproponuvali kontroler shvidkih vag yakij mozhe navchatisya vnutrishnih centriv uvagi angl internal spotlights of attention Teoretichno informaciya vid odnogo tokenu mozhe poshiryuvatisya dovilno daleko vniz za poslidovnistyu ale na praktici problema znikannya gradiyentu lishaye stan modeli naprikinci dovgogo rechennya bez tochnoyi dobutnoyi informaciyi pro poperedni tokeni Produktivnist starih modelej pokrashili dodannyam mehanizmu uvagi yakij dozvoliv modeli mati dostup do bud yakoyi poperednoyi tochki vzdovzh poslidovnosti Shar uvagi zvazhuye vsi poperedni stani vidpovidno do navchenoyi miri dorechnosti nadayuchi dorechnu informaciyu pro viddaleni tokeni Ce viyavilosya osoblivo korisnim u movnomu perekladi de dlya znachennya slova v rechenni mozhe buti vazhlivim viddalenij kontekst Vektor stanu buv dostupnim lishe pislya obrobki ostannogo anglijskogo slova napriklad pid chas perekladu jogo z francuzkoyi modellyu DKChP Hocha teoretichno takij vektor zberigaye informaciyu pro vse originalne rechennya na praktici cya informaciya zberigayetsya pogano Yaksho dodano mehanizm uvagi dekoduvalnik otrimuye dostup do vektoriv stanu kozhnogo vhidnogo slova a ne lishe ostannogo j mozhe navchitisya vag uvagi yaki vkazuyut skilki uvagi pridilyati kozhnomu vhidnomu vektoru stanu Rozshirennya modelej en mehanizmom uvagi vpershe vtilili v konteksti mashinnogo perekladu Bagdanov Cho ta Benzhio 2014 roku Rozkladna uvaga 2016 roku visokorozparalelyuvanu rozkladnu uvagu angl decomposable attention uspishno poyednali z merezheyu pryamogo poshirennya Ce vkazuvalo na te sho mehanizmi uvagi buli potuzhnimi sami po sobi j sho poslidovna rekurentna obrobka danih ne bula neobhidnoyu dlya dosyagnennya prirostu yakosti rekurentnih nejronnih merezh z uvagoyu 2017 roku Vasvani zi spivavt takozh zaproponuvali zaminiti rekurentni nejronni merezhi samouvagoyu j rozpochali zusillya shodo ocinki ciyeyi ideyi Transformeri vikoristovuyuchi mehanizm uvagi obroblyayuchi vsi tokeni odnochasno rozrahovuvali m yaki vagi mizh nimi na poslidovnih sharah Oskilki mehanizm uvagi vikoristovuye informaciyu lishe pro inshi tokeni z nizhchih shariv jogo mozhlivo obchislyuvati dlya vsih tokeniv paralelno sho prizvodit do pokrashennya shvidkosti trenuvannya TrenuvannyaMetodi stabilizuvannya trenuvannya Arhitektura zvichajnogo transformera mala trudnoshi zi zbizhnistyu U pervinnij statti avtori radili vikoristovuvati progrivannya tempu navchannya Tobto temp navchannya povinen linijno zbilshuvatisya vid 0 do maksimalnogo znachennya na pershij chastini trenuvannya zazvichaj radyat 2 vid zagalnoyi kilkosti krokiv trenuvannya persh nizh znovu zmenshuvatisya Pracya 2020 viyavila sho vikoristannya pered a ne pislya bagatogolovoyi uvagi ta shariv pryamogo poshirennya stabilizuye trenuvannya ne vimagayuchi progrivannya tempu navchannya Model GT3 poyednuye CWTE SWTE ta TTE za dopomogoyu samopristosovnogo ventilnogo sharu umozhlivlyuyuchi efektivne j diyeve zlittya troh tipiv oznak dlya naskriznogo kerovanogo tekstom peredbachuvannya rinku akcij Poperednye trenuvannya tonke nastroyuvannya Transformeri yak pravilo pidlyagayut samokerovanomu navchannyu sho skladayetsya z nekerovanogo poperednogo trenuvannya z nastupnim kerovanim tonkim nastroyuvannyam Poperednye trenuvannya yak pravilo vikonuyut na bilshomu nabori danih nizh tonke nastroyuvannya cherez obmezhenu dostupnist en trenuvalnih danih Do zadach poperednogo trenuvannya ta tonkogo nastroyuvannya zazvichaj nalezhat modelyuvannya mov peredbachuvannya nastupnogo rechennya vidpovidannya na pitannya rozuminnya prochitanogo analiz tonalnosti perefrazovuvannya U statti pro transformer T5 zadokumentovano veliku kilkist zavdan dlya poperednogo trenuvannya Deyaki prikladi vidnovlennya poshkodzhenogo tekstu Thank you lt X gt me to your party lt Y gt week gt lt X gt for inviting lt Y gt last lt Z gt de lt Z gt oznachaye kinec vivedennya pereklad translate English to German That is good gt Das ist gut ocinka gramatichnoyi prijnyatnosti rechennya cola sentence The course is jumping well gt not acceptable ZastosuvannyaTransformer dosyag velikogo uspihu v obrobci prirodnoyi movi OPM napriklad u zadachah mashinnogo perekladu ta peredbachuvannya chasovih ryadiv Bagato velikih movnih modelej yak ot GPT 2 GPT 3 GPT 4 Claude BERT XLNet RoBERTa ta ChatGPT demonstruyut zdatnist transformeriv vikonuvati shirokij spektr pov yazanih z OPM zavdan i mayut potencial znahoditi zastosuvannya v realnomu sviti Do nih mozhut nalezhati mashinnij pereklad referuvannya dokumentiv porodzhuvannya dokumentiv rozpiznavannya imenovanih sutnostej RIS en napisannya komp yuternogo kodu na osnovi vimog vislovlenih prirodnoyu movoyu rozuminnya video Okrim zastosuvan v OPM vin takozh dosyag uspihu v inshih galuzyah sered yakih komp yuterne bachennya ta zastosuvannya u zgortanni bilkiv yak ot en Yak ilyustrativnij priklad Ithaca ce transformer z lishe koduvalnikom iz troma golovami vihodu Vin bere na vhodi davnogrecki napisi yak poslidovnosti simvoliv ale z nerozbirlivimi simvolami zaminenimi na Jogo tri golovi vihodu vidpovidno vivodyat rozpodili jmovirnostej nad greckimi simvolami misceznahodzhennyam napisu ta jogo datoyu VtilennyaTransformerovu model bulo vtileno v standartnih sistemah glibokogo navchannya yak ot TensorFlow ta PyTorch Transformers biblioteka yaku nadaye Hugging Face i yaka proponuye arhitekturi na osnovi transformeriv ta poperedno natrenovani modeli ArhitekturaIlyustraciya osnovnih skladovih modeli transformera z pervinnoyi statti de shari normuvalisya pislya bagatogolovoyi uvagi a ne pered neyu Vsi transformeri mayut odnakovi osnovni skladovi Tokenuvalniki yaki peretvoryuyut tekst na tokeni Yedinij shar vkladennya yakij peretvoryuye tokeni ta polozhennya tokeniv na vektorni podannya Transformuvalni shari yaki vikonuyut povtoryuvani peretvorennya nad vektornimi podannyami vidilyayuchi vse bilshe j bilshe movoznavchoyi informaciyi Voni skladayutsya z pochergovih shariv uvagi ta pryamogo poshirennya neobov yazkovij Shar roz vkladennya yakij peretvoryuye ostatochni vektorni podannya nazad na rozpodil imovirnosti nad tokenami Transformuvalni shari mozhut buti odnogo z dvoh tipiv koduvalnik angl encoder ta dekoduvalnik angl decoder U pervinnij statti vikoristovuvali obidva tipi todi yak piznishi modeli mistili lishe odin z nih BERT priklad lishe koduvalnikovoyi modeli GPT lishe dekoduvalnikovi modeli Vhid Vhidnij tekst rozbiraye na tokeni tokenuvalnik najchastishe vikoristovuyut tokenuvalnik en i kozhen token peretvoryuyetsya na vektor shlyahom poshuku v tablici vkladennya sliv Potim do vkladennya slova dodayetsya pozicijna informaciya tokena Koduvalno dekoduvalna arhitektura Podibno do ranishih modelej en originalna model transformera vikoristovuvala koduva lno dekoduva lnu angl encoder decoder arhitekturu Koduvalnik skladayetsya z koduvalnih shariv sho obroblyuyut tokeni vhodu iterativno shar za sharom todi yak dekoduvalnik skladayetsya z dekoduvalnih shariv yaki iterativno obroblyuyut vihid koduvalnika a takozh tokeni vihodu dekoduvalnika do cogo momentu Funkciya kozhnogo koduvalnogo sharu polyagaye v porodzhuvanni kontekstualizovanih podan tokeniv v yakih kozhne podannya vidpovidaye tokenu yakij primishuye informaciyu z inshih tokeniv vhodu cherez mehanizm samouvagi Kozhen dekoduvalnij shar mistit dva pidshari uvagi 1 perehresnu uvagu dlya ohoplennya vihodu koduvalnika kontekstualizovanih podan tokeniv vhodu ta 2 samouvagu dlya primishuvannya informaciyi z pomizh tokeniv vhodu do cogo dekoduvalnika tobto tokeniv porodzhenih do cogo momentu pid chas visnovuvannya Yak koduvalni tak i dekoduvalni shari mayut nejronnu merezhu pryamogo poshirennya dlya dodatkovoyi obrobki vihodiv ta mistyat za lishkovi z yednannya j kroki sharovogo normuvannya angl layer normalization Masshtabovana skalyarnodobutkova uvaga Budivelnimi blokami transformera ye vuzli masshtabovanoyi skalyarnodobutkovoyi uvagi angl scaled dot product attention units Dlya kozhnogo vuzla uvagi transformerna model navchayetsya troh vagovih matric vag zapitu angl query weights W Q displaystyle W Q vag klyucha angl key weights W K displaystyle W K ta vag znachennya angl value weights W V displaystyle W V Dlya kozhnogo tokena i displaystyle i podannya tokena x i displaystyle x i mnozhitsya na kozhnu z cih troh matric dayuchi vektor zapitu q i x i W Q displaystyle q i x i W Q vektor klyucha k i x i W K displaystyle k i x i W K ta vektor znachennya v i x i W V displaystyle v i x i W V Vagi uvagi obchislyuyutsya z vikoristannyam vektoriv zapitu ta klyucha vaga uvagi a i j displaystyle a ij z boku tokena i displaystyle i do tokena j displaystyle j ye skalyarnim dobutkom q i displaystyle q i na k j displaystyle k j Vagi uvagi dilyat na kvadratnij korin rozmiru vektoriv klyucha d k displaystyle sqrt d k sho stabilizuye gradiyenti pid chas trenuvannya ta propuskayut cherez softmax sho unormovuye ci vagi Toj fakt sho W Q displaystyle W Q ta W K displaystyle W K ye riznimi matricyami daye uvazi mozhlivist buti nesimetrichnoyu yaksho token i displaystyle i zvertaye uvagu na token j displaystyle j tobto q i k j displaystyle q i cdot k j ye velikim to ce ne obov yazkovo oznachaye sho token j displaystyle j zvertaye uvagu na token i displaystyle i tobto q j k i displaystyle q j cdot k i mozhe buti malim Vihid vuzla uvagi dlya tokena i displaystyle i ce zvazhena suma vektoriv znachennya vsih tokeniv zvazhenih na a i j displaystyle a ij uvagu z boku tokena i displaystyle i do kozhnogo z tokeniv Obchislennya uvagi angl attention dlya vsih tokeniv mozhlivo viraziti odnim velikim matrichnim obchislennyam z vikoristannyam funkciyi softmax sho korisno dlya trenuvannya zavdyaki obchislyuvalnim optimizaciyam matrichnih operacij yaki obchislyuyut matrichni operaciyi shvidko Matrici Q displaystyle Q K displaystyle K ta V displaystyle V viznacheno yak matrici v yakih i displaystyle i ti ryadki ye vektorami q i displaystyle q i k i displaystyle k i ta v i displaystyle v i vidpovidno Todi uvagu mozhlivo podati yak Attention Q K V softmax Q K T d k V displaystyle begin aligned text Attention Q K V text softmax left frac QK mathrm T sqrt d k right V end aligned de softmax beretsya nad gorizontalnoyu vissyu Bagatogolova uvaga Odin nabir matric W Q W K W V displaystyle left W Q W K W V right nazivayut golovoyu uvagi angl attention head j kozhen shar u transformernij modeli maye dekilka goliv uvagi V toj chas yak kozhna z goliv uvagi zvertaye uvagu na tokeni dorechni dlya kozhnogo z tokeniv dekilka goliv uvagi dozvolyayut modeli robiti ce dlya riznih viznachen dorechnosti Krim togo pole vplivu sho podaye dorechnist mozhe postupovo rozshiryuvatisya v poslidovnih sharah Bagato transformernih goliv uvagi koduyut vidnoshennya dorechnosti zmistovni dlya lyudej Napriklad odni golovi mozhut zvertati najbilshe uvagi na nastupne slovo v toj chas yak inshi perevazhno zvertayut uvagu diyesliv na yihni bezposeredni ob yekti Obchislennya dlya vsih goliv uvagi mozhut vikonuvatisya paralelno sho umozhlivlyuye shvidku obrobku Vihodi sharu uvagi zchiplyuyut shobi peredavati yih do shariv nejronnih merezh pryamogo poshirennya Konkretno pokladimo sho dekilka goliv uvagi proindeksovano cherez i displaystyle i todi mayemo MultiheadedAttention Q K V Concat i h e a d s Attention X W i Q X W i K X W i V W O displaystyle text MultiheadedAttention Q K V text Concat i in heads text Attention XW i Q XW i K XW i V W O de matricya X displaystyle X zcheplennya vkladen sliv matrici W i Q W i K W i V displaystyle W i Q W i K W i V proyekcijni matrici sho nalezhat okremij golovi uvagi i displaystyle i a W O displaystyle W O kinceva proyekcijna matricya sho nalezhit vsij bagatogolovij strukturi uvagi Maskovana uvaga Mozhe buti neobhidno virizati zv yazki uvagi mizh deyakimi parami sliv Napriklad dekoduvalnik dlya poziciyi tokena t displaystyle t ne povinen mati dostupu do poziciyi tokena t 1 displaystyle t 1 Cogo mozhlivo dosyagti pered etapom softmax dodavannyam matrici maski angl mask matrix M displaystyle M sho maye znachennya displaystyle infty u miscyah de zv yazok uvagi maye buti obrizano j 0 displaystyle 0 v inshih miscyah MaskedAttention Q K V softmax M Q K T d k V displaystyle begin aligned text MaskedAttention Q K V text softmax left M frac QK mathrm T sqrt d k right V end aligned Koduvalnik Kozhen koduvalnik angl encoder skladayetsya z dvoh golovnih skladovih mehanizmu samouvagi angl self attention mechanism ta nejronnoyi merezhi pryamogo poshirennya Mehanizm samouvagi prijmaye koduvannya vhodiv z poperednogo koduvalnika ta zvazhuye yihnyu dorechnist odne odnomu shobi poroditi koduvannya vihodiv Nejronna merezha pryamogo poshirennya zdijsnyuye podalshu obrobku koduvannya kozhnogo vihodu okremo Ci koduvannya vihodiv vidtak peredayut nastupnomu koduvalnikovi yak jogo vhid tak samo yak i dekoduvalnikam Pershij koduvalnik otrimuye yak vhid ne koduvannya a pozicijnu informaciyu ta vkladennya poslidovnosti vhodu Pozicijna informaciya neobhidna transformerovi shobi vikoristovuvati poryadok poslidovnosti oskilki zhodna insha chastina transformera jogo ne vikoristovuye Koduvalnik dvospryamovanij Uvaga mozhe zvertatisya na tokeni roztashovani yak do tak i pislya potochnogo tokena Tokeni vikoristovuyut zamist sliv dlya vrahuvannya bagatoznachnosti Diagrama sinusoyidnogo pozicijnogo koduvannya z parametrami N 10000 d 100 displaystyle N 10000 d 100 Pozicijne koduvannya Pozicijne koduvannya angl positional encoding ce vektorne podannya fiksovanogo rozmiru sho ohoplyuye vidnosni poziciyi tokeniv u cilovij poslidovnosti vono nadaye modeli transformera informaciyu pro te de znahodyatsya slova u vhidnij poslidovnosti Pozicijne koduvannya viznachayut yak funkciyu tipu f R R d d Z d gt 0 displaystyle f mathbb R to mathbb R d d in mathbb Z d gt 0 de d displaystyle d dodatne parne cile chislo Povne pozicijne koduvannya yak viznacheno v pervinnij statti zadayetsya rivnyannyam f t 2 k f t 2 k 1 sin 8 cos 8 k 0 1 d 2 1 displaystyle f t 2k f t 2k 1 sin theta cos theta quad forall k in 0 1 ldots d 2 1 de 8 t r k r N 2 d displaystyle theta frac t r k r N 2 d Tut N displaystyle N vilnij parametr yakij povinen buti znachno bilshim za najbilshe k displaystyle k yake vvoditimut do funkciyi pozicijnogo koduvannya U pervinnij statti avtori obrali N 10000 displaystyle N 10000 Cya funkciya maye prostishij viglyad pri zapisi yak kompleksna funkciya tipu f R C d 2 displaystyle f mathbb R to mathbb C d 2 f t e i t r k k 0 1 d 2 1 displaystyle f t left e it r k right k 0 1 ldots frac d 2 1 de r N 2 d displaystyle r N 2 d Osnovna prichina cherez yaku avtori obrali cyu funkciyu za pozicijne koduvannya polyagaye v tomu sho vona dozvolyaye vikonuvati zmishennya yak linijni peretvorennya f t D t d i a g f D t f t displaystyle f t Delta t mathrm diag f Delta t f t de D t R displaystyle Delta t in mathbb R vidstan na yaku potribno zdijsniti zmishennya Ce dozvolyaye transformerovi brati bud yaku zakodovanu poziciyu j znahoditi koduvannya poziciyi na n krokiv vpered abo nazad za dopomogoyu mnozhennya matric Beruchi linijnu sumu bud yaku zgortku takozh mozhlivo vtiliti yak linijni peretvorennya j c j f t D t j j c j d i a g f D t j f t displaystyle sum j c j f t Delta t j left sum j c j mathrm diag f Delta t j right f t dlya bud yakih stalih c j displaystyle c j Ce dozvolyaye transformerovi brati bud yaku zakodovanu poziciyu j znahoditi linijnu sumu zakodovanih pozicij yiyi susidiv Cya suma zakodovanih pozicij koli yiyi podati do mehanizmu uvagi stvoryuvatime vagi uvagi na yiyi susidah duzhe podibno do togo sho vidbuvayetsya v modeli movi na zgortkovij nejronnij merezhi Za slovami avtoriv mi pripustili sho ce dozvolit modeli legko navchatisya zvertati uvagu za vidnosnoyu poziciyeyu U tipovih vtilennyah usi operaciyi zdijsnyuyutsya nad dijsnimi chislami a ne kompleksnimi ale oskilki mnozhennya kompleksnih chisel mozhlivo vtiliti yak mnozhennya dijsnoznachnih matric 2 na 2 to riznicya lishe v zapisi Dekoduvalnik Kozhen dekoduvalnik angl decoder skladayetsya z troh golovnih skladovih mehanizmu samouvagi mehanizmu uvagi nad koduvannyami ta nejronnoyi merezhi pryamogo poshirennya Dekoduvalnik pracyuye podibno do koduvalnika ale dodatkovo vstavlyayetsya mehanizm uvagi sho natomist distaye dorechnu informaciyu z koduvan porodzhenih koduvalnikami Cej mehanizm takozh mozhut nazivati koduvalno dekoduvalnoyu uvagoyu angl encoder decoder attention Podibno do pershogo koduvalnika pershij dekoduvalnik bere yak svij vhid ne koduvannya a pozicijnu informaciyu ta vkladennya poslidovnosti vihodu Transformer musit ne vikoristovuvati dlya peredbachuvannya vihodu potochnij abo majbutnij vihid tozh poslidovnist vihodu musit buti chastkovo maskovano shobi zapobigti comu zvorotnomu potokovi informaciyi Ce umozhlivlyuye avtoregresijne porodzhuvannya tekstu Dlya vsih goliv uvagi ne mozhna zvertati uvagu na nastupni tokeni Za krajnim dekoduvalnikom jde zavershalne linijne peretvorennya ta shar softmax shobi viroblyati jmovirnosti vihodu nad slovnikom Vsi modeli seriyi GPT vid OpenAI mayut lishe dekoduvalnu arhitekturu Terminologiya U velikih movnih modelyah terminologiya desho vidriznyayetsya vid terminologiyi vikoristanoyi v originalnij statti pro transformer tilki koduvalnik povnij koduvalnik povnij dekoduvalnik koduvalnik dekoduvalnik povnij koduvalnik avtoregresijnij dekoduvalnik tilki dekoduvalnik avtoregresijnij koduvalnik avtoregresijnij dekoduvalnik Tut avtoregresijnij oznachaye sho do golovi uvagi vstavlyayut masku dlya zanulyannya vsiyeyi uvagi vid odnogo tokena do vsih tokeniv pislya nogo yak opisano v rozdili maskovana uvaga Zagalom movni modeli na osnovi transformera isnuyut dvoh tipiv prichinni abo avtoregresijni ta maskovani Seriya GPT ye prichinnoyu j lishe dekoduvalnoyu BERT maskovana j lishe koduvalna Seriya T5 koduvalno dekoduvalna z povnim koduvalnikom ta avtoregresijnim dekoduvalnikom Nastupni robotiAlternativni peredavalni funkciyi Originalnij transformer vikoristovuye peredavalnu funkciyu ReLU Bulo rozrobleno j inshi peredavalni funkciyi aktivaciyi yak ot SwiGLU Alternativni pozicijni koduvannya Transformeri mozhut vikoristovuvati j inshi metodi pozicijnogo koduvannya krim sinusoyidnogo RoPE angl rotary positional embedding povorotne pozicijne vkladennya najkrashe poyasnyuvati rozglyadayuchi spisok 2 vimirnih vektoriv x 1 1 x 1 2 x 2 1 x 2 2 x 3 1 x 3 2 displaystyle x 1 1 x 1 2 x 2 1 x 2 2 x 3 1 x 3 2 Viberimo deyakij kut 8 displaystyle theta Todi koduvannya RoPE ceRoPE x m 1 x m 2 m cos m 8 sin m 8 sin m 8 cos m 8 x m 1 x m 2 x m 1 cos m 8 x m 2 sin m 8 x m 2 cos m 8 x m 1 sin m 8 displaystyle text RoPE big x m 1 x m 2 m big begin pmatrix cos m theta amp sin m theta sin m theta amp cos m theta end pmatrix begin pmatrix x m 1 x m 2 end pmatrix begin pmatrix x m 1 cos m theta x m 2 sin m theta x m 2 cos m theta x m 1 sin m theta end pmatrix Ekvivalentno yaksho zapisati 2 vimirni vektori yak kompleksni chisla z m x m 1 i x m 2 displaystyle z m x m 1 ix m 2 to koduvannya RoPE ce prosto mnozhennya na kut RoPE z m m e i m 8 z m displaystyle text RoPE big z m m big e im theta z m Dlya spisku 2 n displaystyle 2n vimirnih vektoriv koduvalnik RoPE viznachayetsya poslidovnistyu kutiv 8 1 8 n displaystyle theta 1 theta n Todi koduvannya RoPE zastosovuyetsya do kozhnoyi pari koordinat Perevaga RoPE polyagaye v tomu sho skalyarnij dobutok dvoh vektoriv zalezhit lishe vid yihnogo vidnosnogo roztashuvannya RoPE x m T RoPE y n RoPE x m k T RoPE y n k displaystyle text RoPE big x m big T text RoPE big y n big text RoPE big x m k big T text RoPE big y n k big dlya bud yakogo cilogo chisla k displaystyle k ALiBi angl Attention with Linear Biases uvaga z linijnimi zmishennyami ne ye zaminoyu dlya pozicijnogo koduvalnika v originalnomu transformeri Natomist ce dodatkovij pozicijnij koduvalnik yakij bezposeredno pidklyuchayetsya do mehanizmu uvagi Konkretno mehanizm uvagi ALiBi ceAttention Q K V softmax Q K T d k s B V displaystyle begin aligned text Attention Q K V text softmax left frac QK mathrm T sqrt d k sB right V end aligned Tut s displaystyle s dijsne chislo skalyar a B displaystyle B matricya linijnogo zmishennya angl linear bias viznachena yakB 0 1 2 3 1 0 1 2 2 1 0 1 3 2 1 0 displaystyle B begin pmatrix 0 amp 1 amp 2 amp 3 amp cdots 1 amp 0 amp 1 amp 2 amp cdots 2 amp 1 amp 0 amp 1 amp cdots 3 amp 2 amp 1 amp 0 amp cdots vdots amp vdots amp vdots amp vdots amp ddots end pmatrix inshimi slovami B i j j i displaystyle B i j j i ALiBi dozvolyaye zdijsnyuvati poperednye trenuvannya na korotkih kontekstnih viknah a potim tonke nastoyuvannya na dovshih kontekstnih viknah Oskilki yiyi bezposeredno pidklyucheno do mehanizmu uvagi yiyi mozhlivo poyednuvati z bud yakim pozicijnim koduvalnikom yakij pidklyucheno do nizu vsiyeyi merezhi de roztashovano sinusoyidnij koduvalnik originalnogo transformera a takozh RoPE ta bagato inshih Koduvannya vidnosnih pozicij angl Relative Position Encodings podibni do ALiBi ale zagalnishi Attention Q K V softmax Q K T d k B V displaystyle begin aligned text Attention Q K V text softmax left frac QK mathrm T sqrt d k B right V end aligned de B displaystyle B matricya Teplica tobto B i j B i j displaystyle B i j B i j za umovi i j i j displaystyle i j i j Efektivne vtilennya FlashAttention FlashAttention ce algoritm sho efektivno vtilyuye mehanizm uvagi transformera na GP Vin vikonuye mnozhennya matric blokami takim chinom sho kozhen blok umishayetsya v kesh GP i zavdyaki retelnomu upravlinnyu blokami minimizuye kopiyuvannya danih mizh keshami GP oskilki peremishennya danih povilne Pokrashenu versiyu FlashAttention 2 rozrobili dlya togo shobi zadovolniti vishidnij popit na movni modeli zdatni obroblyati dovshi konteksti Vona proponuye polipshennya v rozpodili j rozparalelyuvanni roboti dozvolyayuchi dosyagati do 230 teraflops s na GP A100 FP16 en sho vdvichi shvidshe za originalnij FlashAttention Do klyuchovih dosyagnen FlashAttention 2 nalezhat zmenshennya ne pov yazanih z mnozhennyam matric operacij z ruhomoyu komoyu pokrashene rozparalelyuvannya nad vimirom dovzhini poslidovnosti krashij rozpodil roboti mizh grupami potokiv GP a takozh dodatkova pidtrimka rozmiriv goliv do 256 ta bagatozapitovoyi BZU angl multi query attention MQA j grupozapitovoyi uvagi GZU angl grouped query attention GQA Etalonni perevirki pokazali sho FlashAttention 2 v do 2 raziv shvidshe za FlashAttention i v do 9 raziv shvidshe za standartne vtilennya uvagi v PyTorch Sered majbutnih rozrobok optimizaciya dlya novogo obladnannya yak ot GP H100 ta novih tipiv danih yak ot FP8 Bagatozapitova uvaga Bagatozapitova uvaga angl Multi Query Attention zminyuye mehanizm bagatogolovoyi uvagi Todi yak tradicijno MultiheadedAttention Q K V Concat i h e a d s Attention X W i Q X W i K X W i V W O displaystyle text MultiheadedAttention Q K V text Concat i in heads text Attention XW i Q XW i K XW i V W O z bagatozapitovoyu uvagoyu isnuye lishe odne W K W V displaystyle W K W V tozh MultiQueryAttention Q K V Concat i h e a d s Attention X W i Q X W K X W V W O displaystyle text MultiQueryAttention Q K V text Concat i in heads text Attention XW i Q XW K XW V W O Ce maye nejtralnij vpliv na yakist modeli ta shvidkist trenuvannya ale pidvishuye shvidkist visnovuvannya Spekulyativne dekoduvannya Transformeri vikoristovuyut u velikih movnih modelyah dlya avtoregresijnogo porodzhuvannya poslidovnostej porodzhuvannya potoku tekstu po odnomu tokenu za raz Prote v bilshosti postanovok dekoduvannya z movnih modelej vpirayutsya v pam yat sho oznachaye sho nam dostupni vilni obchislyuvalni potuzhnosti Spekulyativne dekoduvannya angl speculative decoding vikoristovuye ci vilni obchislyuvalni potuzhnosti obchislyuyuchi dekilka tokeniv paralelno Podibno do spekulyativnogo vikonannya v CP majbutni tokeni obchislyuyutsya paralelno roblyachi pripushennya shodo znachen poperednih tokeniv i piznishe vidkidayutsya yaksho viyavlyayetsya sho pripushennya buli hibnimi Konkretnishe rozglyanmo transformernu model na kshtalt GPT 3 z rozmirom kontekstnogo vikna 512 Dlya porodzhennya vsogo kontekstnogo vikna avtoregresijno z zhadibnim dekoduvannyam yiyi potribno zapuskati 512 raziv kozhnogo razu porodzhuyuchi token x 1 x 2 x 512 displaystyle x 1 x 2 x 512 Prote yakbi mi mali deyake obgruntovane pripushennya shodo znachen cih tokeniv mi mogli bi pereviryati yih usi paralelno za odin zapusk modeli pereviryayuchi sho kozhen x t displaystyle x t spravdi ye tokenom iz najvishoyu logarifmichnoyu pravdopodibnistyu na t displaystyle t tomu vihodi Pri spekulyativnomu dekoduvanni vikoristovuyut menshu model abo deyaku inshu prostu evristiku dlya porodzhennya kilkoh spekulyativnih tokeniv yaki potim pereviryayut bilshoyu modellyu Napriklad pripustimo sho mala model porodila chotiri spekulyativni tokeni x 1 x 2 x 3 x 4 displaystyle tilde x 1 tilde x 2 tilde x 3 tilde x 4 Ci tokeni propuskayut kriz bilshu model i prijmayutsya lishe x 1 displaystyle tilde x 1 ta x 2 displaystyle tilde x 2 Toj zhe zapusk velikoyi modeli vzhe porodiv novij token x 3 displaystyle x 3 dlya zamini x 3 displaystyle tilde x 3 a x 4 displaystyle tilde x 4 povnistyu vidkidayetsya Proces potim povtoryuyetsya pochinayuchi z 4 go tokena doki ne bude porodzheno vsi tokeni Dlya ne zhadibnogo dekoduvannya zastosovuyut podibni ideyi za vinyatkom togo sho spekulyativni tokeni prijmayut abo vidkidayut stohastichno takim chinom sho garantuyetsya sho kincevij rozpodil vihodu ye takim samim yak yakbi spekulyativne dekoduvannya ne vikoristovuvalos Subkvadratichni transformeri Trenuvannya arhitektur na transformernij osnovi mozhe buti vitratnim osoblivo dlya dovgih danih vhodu Do alternativnih arhitektur nalezhat Reformer angl Reformer sho znizhuye obchislyuvalne navantazhennya z O N 2 displaystyle O N 2 do O N ln N displaystyle O N ln N ta modeli na kshtalt ETC BigBird yaki mozhut znizhuvati jogo do O N displaystyle O N de N displaystyle N dovzhina poslidovnosti Ce zdijsnyuyetsya za dopomogoyu en ta oborotnih shariv angl reversible layers Zvichajni transformeri vimagayut obsyagu pam yati kvadratichnogo shodo rozmiru kontekstnogo vikna Transformeri bez uvagi angl attention free transformers znizhuyut cyu vimogu do linijnoyi zalezhnosti zberigayuchi pri comu perevagi transformera shlyahom zv yazuvannya klyucha zi znachennyam Long Range Arena ukr Arena dalekobijnosti 2020 standartnij etalon dlya porivnyuvannya povedinki transformernih arhitektur na dovgih danih vhodu Uvaga z vipadkovimi oznakami angl Random Feature Attention 2021 vikoristovuye en f x 1 D cos w 1 x sin w 1 x cos w D x sin w D x T displaystyle varphi x frac 1 sqrt D cos langle w 1 x rangle sin langle w 1 x rangle cdots cos langle w D x rangle sin langle w D x rangle T de w 1 w D displaystyle w 1 w D nezalezhni zrazki z normalnogo rozpodilu N 0 s 2 I displaystyle N 0 sigma 2 I Za cogo viboru parametriv vikonuyetsya E f x f y e x y 2 2 s 2 displaystyle mathbb E langle varphi x varphi y rangle e frac x y 2 2 sigma 2 abo e x y s 2 E e x 2 2 s 2 f x e y 2 2 s 2 f y e x 2 2 s 2 f x e y 2 2 s 2 f y displaystyle e langle x y rangle sigma 2 mathbb E langle e x 2 2 sigma 2 varphi x e y 2 2 sigma 2 varphi y rangle approx langle e x 2 2 sigma 2 varphi x e y 2 2 sigma 2 varphi y rangle Vidpovidno odnogolovu uvagu z odnim zapitom mozhlivo zapisati yak Attention q K V softmax q K T d k V f q T i e k i 2 2 s 2 f k i v i T f q T i e k i 2 2 s 2 f k i displaystyle text Attention q K V text softmax left frac qK mathrm T sqrt d k right V approx frac varphi q T sum i e k i 2 2 sigma 2 varphi k i v i T varphi q T sum i e k i 2 2 sigma 2 varphi k i de s d K 1 4 displaystyle sigma d K 1 4 Analogichno dlya kilkoh zapitiv ta dlya bagatogolovoyi uvagi Ce nablizhennya mozhlivo obchislyuvati za linijnij chas oskilki mozhlivo spochatku obchislyuvati matricyu f k i v i T displaystyle varphi k i v i T a potim peremnozhuvati yiyi z zapitom Po suti nam vdalosya otrimati tochnishu versiyu Attention Q K V softmax Q K T d k V Q K T V d k displaystyle text Attention Q K V text softmax left frac QK mathrm T sqrt d k right V approx Q K T V sqrt d k Performer angl Performer 2022 vikoristovuye tu samu uvagu z vipadkovimi oznakami ale w 1 w D displaystyle w 1 w D spochatku nezalezhno vibirayut iz normalnogo rozpodilu N 0 s 2 I displaystyle N 0 sigma 2 I a potim obroblyayut yih obrobkoyu Grama Shmidta Multimodalnist Transformeri takozh mozhlivo vikoristovuvati pristosovuvati j dlya inshih modalnostej danih vhodu abo vihodu krim tekstu zazvichaj shlyahom znahodzhennya sposobu tokenuvati taku modalnist Zorovi transformeri angl vision transformers pristosovuyut transformer do komp yuternogo bachennya rozbivayuchi vhidni zobrazhennya na nizku fragmentiv peretvoryuyuchi yih na vektori j obroblyayuchi yih yak tokeni v standartnomu transformeri Konformer angl Conformer ta piznishij Whisper dotrimuyutsya tiyeyi zh shemi dlya rozpiznavannya movlennya spochatku peretvoryuyuchi signal movlennya na spektrogramu yaku potim obroblyayut yak zobrazhennya tobto rozbivayut na nizku fragmentiv peretvoryuyut na vektori j obroblyayut yak tokeni v standartnomu transformeri Persiveri angl Perceiver ukr sprijmach vid Endryu Dzhejgla zi spivavt 2021 mozhut navchatisya z velikih masiviv geterogennih danih Stosovno en Pibls zi spivavt zaproponuvali difuzijnij transformer DiT angl diffusion transformer DiT yakij polegshuye vikoristannya transformernoyi arhitekturi dlya viroblyannya zobrazhen na osnovi difuziyi Takozh Google vipustila transformerocentrichnij porodzhuvach zobrazhen pid nazvoyu Muza angl Muse na osnovi paralelnogo dekoduvannya j tehnologiyi maskovanogo porodzhuvalnogo transformera Transformeri vidigravali ne taku centralnu rol u poperednih tehnologiyah stvorennya zobrazhen hocha j vse zh znachnu Div takozhPersiver BERT model movi GPT 3 GPT 4 ChatGPT en Zorovij transformer en Primitki Shazeer Noam Parmar Niki Uszkoreit Jakob Jones Llion Kaiser Lukasz Polosukhin Illia 2017 Attention is All you Need PDF Advances in Neural Information Processing Systems angl Curran Associates Inc 30 Schmidhuber Jurgen 1 listopada 1997 Long Short Term Memory Neural Computation angl 9 8 1735 1780 doi 10 1162 neco 1997 9 8 1735 ISSN 0899 7667 PMID 9377276 S2CID 1915014 Better Language Models and Their Implications OpenAI angl 14 lyutogo 2019 originalu za 19 grudnya 2020 Procitovano 25 serpnya 2019 Bahdanau Cho Kyunghyun Bengio Yoshua 1 veresnya 2014 Neural Machine Translation by Jointly Learning to Align and Translate angl arXiv 1409 0473 cs CL Luong Minh Thang Pham Hieu Manning Christopher D 17 serpnya 2015 Effective Approaches to Attention based Neural Machine Translation angl arXiv 1508 04025 cs CL Schmidhuber Jurgen 1992 Learning to control fast weight memories an alternative to recurrent nets Neural Computation angl 4 1 131 139 doi 10 1162 neco 1992 4 1 131 S2CID 16683347 Schlag Imanol Irie Kazuki Schmidhuber Jurgen 2021 Linear Transformers Are Secretly Fast Weight Programmers ICML 2021 Springer s 9355 9366 Katharopoulos Angelos Vyas Apoorv Pappas Nikolaos Fleuret Francois 2020 Transformers are RNNs Fast autoregressive Transformers with linear attention ICML 2020 angl PMLR s 5156 5165 He Cheng 31 grudnya 2021 Transformer in CV Transformer in CV angl Towards Data Science originalu za 16 kvitnya 2023 Procitovano 19 chervnya 2021 Radford Alec Jong Wook Kim Xu Tao Brockman Greg McLeavey Christine Sutskever Ilya 2022 Robust Speech Recognition via Large Scale Weak Supervision angl arXiv 2212 04356 eess AS Wolf Thomas Debut Lysandre Sanh Victor Chaumond Julien Delangue Clement Moi Anthony Cistac Pierric Rault Tim Louf Remi Funtowicz Morgan Davison Joe Shleifer Sam von Platen Patrick Ma Clara Jernite Yacine Plu Julien Xu Canwen Le Scao Teven Gugger Sylvain Drame Mariama Lhoest Quentin Rush Alexander 2020 Transformers State of the Art Natural Language Processing Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing System Demonstrations angl s 38 45 doi 10 18653 v1 2020 emnlp demos 6 S2CID 208117506 Open Sourcing BERT State of the Art Pre training for Natural Language Processing Google AI Blog angl 2 listopada 2018 originalu za 13 sichnya 2021 Procitovano 25 serpnya 2019 Elman Jeffrey L berezen 1990 Finding Structure in Time Cognitive Science angl 14 2 179 211 doi 10 1207 s15516709cog1402 1 S2CID 2763403 Choromanski Krzysztof Likhosherstov Valerii Dohan David Song Xingyou Gane Andreea Sarlos Tamas Hawkins Peter Davis Jared Mohiuddin Afroz Kaiser Lukasz Belanger David Colwell Lucy Weller Adrian 2020 Rethinking Attention with Performers angl arXiv 2009 14794 cs CL Schmidhuber Juergen 26 bereznya 2021 angl IDSIA Switzerland Arhiv originalu za 5 grudnya 2023 Procitovano 29 grudnya 2023 Schmidhuber Jurgen 1993 Reducing the ratio between learning complexity and number of time varying variables in fully recurrent nets ICANN 1993 angl Springer s 460 463 Brown Peter F 1993 The mathematics of statistical machine translation Parameter estimation Computational Linguistics angl 19 263 311 Banko Michele Brill Eric 2001 Scaling to very very large corpora for natural language disambiguation Proceedings of the 39th Annual Meeting on Association for Computational Linguistics ACL 01 angl Morristown NJ USA Association for Computational Linguistics 26 33 doi 10 3115 1073012 1073017 S2CID 6645623 Sutskever Ilya Vinyals Oriol Le Quoc V 2014 Sequence to Sequence Learning with Neural Networks Advances in Neural Information Processing Systems Curran Associates Inc 27 arXiv 1409 3215 Cho Kyunghyun van Merrienboer Bart Bahdanau Dzmitry Bengio Yoshua 2014 On the Properties of Neural Machine Translation Encoder Decoder Approaches Proceedings of SSST 8 Eighth Workshop on Syntax Semantics and Structure in Statistical Translation angl Stroudsburg PA USA Association for Computational Linguistics 103 111 arXiv 1409 1259 doi 10 3115 v1 w14 4012 S2CID 11336213 Chung Junyoung Gulcehre Caglar Cho KyungHyun Bengio Yoshua 2014 Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling angl arXiv 1412 3555 cs NE Gruber N Jockisch A 2020 Are GRU cells more specific and LSTM cells more sensitive in motive classification of text Frontiers in Artificial Intelligence angl 3 40 doi 10 3389 frai 2020 00040 PMC 7861254 PMID 33733157 S2CID 220252321 Bahdanau Dzmitry Cho Kyunghyun Bengio Yoshua 1 veresnya 2014 Neural Machine Translation by Jointly Learning to Align and Translate angl arXiv 1409 0473 cs CL Google Scholar scholar google com angl Procitovano 13 serpnya 2023 Lewis Kraus Gideon 14 grudnya 2016 The New York Times amer ISSN 0362 4331 Arhiv originalu za 24 travnya 2023 Procitovano 22 chervnya 2023 Wu Yonghui ta in 1 veresnya 2016 Google s Neural Machine Translation System Bridging the Gap between Human and Machine Translation angl arXiv 1609 08144 cs CL Devlin Jacob Chang Ming Wei Lee Kenton Toutanova Kristina 11 zhovtnya 2018 BERT Pre training of Deep Bidirectional Transformers for Language Understanding angl arXiv 1810 04805v2 cs CL Dosovitskiy Alexey Beyer Lucas Kolesnikov Alexander Weissenborn Dirk Zhai Xiaohua Unterthiner Thomas Dehghani Mostafa Minderer Matthias Heigold Georg Gelly Sylvain Uszkoreit Jakob 3 chervnya 2021 An Image is Worth 16x16 Words Transformers for Image Recognition at Scale angl arXiv 2010 11929 cs CV Gulati Anmol Qin James Chiu Chung Cheng Parmar Niki Zhang Yu Yu Jiahui Han Wei Wang Shibo Zhang Zhengdong Wu Yonghui Pang Ruoming 2020 Conformer Convolution augmented Transformer for Speech Recognition angl arXiv 2005 08100 eess AS Xiong Ruibin Yang Yunchang He Di Zheng Kai Zheng Shuxin Xing Chen Zhang Huishuai Lan Yanyan Wang Liwei Liu Tie Yan 29 chervnya 2020 On Layer Normalization in the Transformer Architecture angl arXiv 2002 04745 cs LG Improving language understanding with unsupervised learning openai com amer 11 chervnya 2018 originalu za 18 bereznya 2023 Procitovano 18 bereznya 2023 finetune transformer lm angl OpenAI 11 chervnya 2018 procitovano 1 travnya 2023 Papers with Code A Decomposable Attention Model for Natural Language Inference paperswithcode com angl Chen Jia Chen Tao Shen Mengqi Shi Yunhai Wang Dongjing Zhang Xin 1 veresnya 2022 Gated three tower transformer for text driven stock market prediction Multimedia Tools and Applications angl 81 21 30093 30119 doi 10 1007 s11042 022 11908 1 ISSN 1573 7721 S2CID 247987240 Raffel Colin Shazeer Noam Roberts Adam Lee Katherine Narang Sharan Matena Michael Zhou Yanqi Li Wei Liu Peter J 1 sichnya 2020 Exploring the limits of transfer learning with a unified text to text transformer The Journal of Machine Learning Research angl 21 1 140 5485 140 5551 arXiv 1910 10683 ISSN 1532 4435 Kariampuzha William Alyea Gioconda Qu Sue Sanjak Jaleal Mathe Ewy Sid Eric Chatelaine Haley Yadaw Arjun Xu Yanji Zhu Qian 2023 Precision information extraction for rare disease epidemiology at scale Journal of Translational Medicine angl 21 1 157 doi 10 1186 s12967 023 04011 y PMC 9972634 PMID 36855134 Assael Yannis Sommerschield Thea Shillingford Brendan Bordbar Mahyar Pavlopoulos John Chatzipanagiotou Marita Androutsopoulos Ion Prag Jonathan de Freitas Nando berezen 2022 Restoring and attributing ancient texts using deep neural networks Nature angl 603 7900 280 283 Bibcode 2022Natur 603 280A doi 10 1038 s41586 022 04448 z ISSN 1476 4687 PMC 8907065 PMID 35264762 Sequence Modeling with Neural Networks Part 2 Attention Models Indico angl 18 kvitnya 2016 originalu za 21 zhovtnya 2020 Procitovano 15 zhovtnya 2019 Alammar Jay The Illustrated Transformer jalammar github io angl originalu za 18 zhovtnya 2020 Procitovano 15 zhovtnya 2019 Clark Kevin Khandelwal Urvashi Levy Omer Manning Christopher D serpen 2019 What Does BERT Look at An Analysis of BERT s Attention Proceedings of the 2019 ACL Workshop BlackboxNLP Analyzing and Interpreting Neural Networks for NLP angl Florence Italy Association for Computational Linguistics 276 286 arXiv 1906 04341 doi 10 18653 v1 W19 4828 originalu za 21 zhovtnya 2020 Procitovano 20 travnya 2020 LeCun Yann 28 kvitnya 2023 Twitter angl Arhiv originalu za 23 chervnya 2023 Procitovano 23 chervnya 2023 Masked language modeling huggingface co angl Procitovano 5 zhovtnya 2023 Causal language modeling huggingface co angl Procitovano 5 zhovtnya 2023 Shazeer Noam 1 lyutogo 2020 GLU Variants Improve Transformer angl arXiv 2002 05202 cs LG Dufter Philipp Schmitt Martin Schutze Hinrich 6 chervnya 2022 Position Information in Transformers An Overview Computational Linguistics angl 48 3 733 763 arXiv 2102 11090 doi 10 1162 coli a 00445 ISSN 0891 2017 S2CID 231986066 Su Jianlin Lu Yu Pan Shengfeng Murtadha Ahmed Wen Bo Liu Yunfeng 1 kvitnya 2021 RoFormer Enhanced Transformer with Rotary Position Embedding angl arXiv 2104 09864 cs CL Press Ofir Smith Noah A Lewis Mike 1 serpnya 2021 Train Short Test Long Attention with Linear Biases Enables Input Length Extrapolation angl arXiv 2108 12409 cs CL Shaw Peter Uszkoreit Jakob Vaswani Ashish 2018 Self Attention with Relative Position Representations angl arXiv 1803 02155 cs CL Dao Tri Fu Dan Ermon Stefano Rudra Atri Re Christopher 6 grudnya 2022 FlashAttention Fast and Memory Efficient Exact Attention with IO Awareness Advances in Neural Information Processing Systems angl 35 16344 16359 arXiv 2205 14135 Stanford CRFM crfm stanford edu angl Procitovano 18 lipnya 2023 FlashAttention 2 Faster Attention with Better Parallelism and Work Partitioning Princeton NLP angl 17 chervnya 2023 Procitovano 18 lipnya 2023 Introducing Together AI Chief Scientist Tri Dao as he releases FlashAttention 2 to speed up model training and inference TOGETHER amer Procitovano 18 lipnya 2023 Chowdhery Aakanksha Narang Sharan Devlin Jacob Bosma Maarten Mishra Gaurav Roberts Adam Barham Paul Chung Hyung Won Sutton Charles Gehrmann Sebastian Schuh Parker Shi Kensen Tsvyashchenko Sasha Maynez Joshua Rao Abhishek 1 kvitnya 2022 PaLM Scaling Language Modeling with Pathways angl arXiv 2204 02311 cs CL Leviathan Yaniv Kalman Matan Matias Yossi 18 travnya 2023 Fast Inference from Transformers via Speculative Decoding angl arXiv 2211 17192 Fu Yao 13 grudnya 2023 Towards 100x Speedup Full Stack Transformer Inference Optimization angl Chen Charlie Borgeaud Sebastian Irving Geoffrey Lespiau Jean Baptiste Sifre Laurent Jumper John 2 lyutogo 2023 Accelerating Large Language Model Decoding with Speculative Sampling angl arXiv 2302 01318 Kitaev Nikita Kaiser Lukasz Levskaya Anselm 2020 Reformer The Efficient Transformer angl arXiv 2001 04451 cs LG Constructing Transformers For Longer Sequences with Sparse Attention Methods Google AI Blog angl 25 bereznya 2021 originalu za 18 veresnya 2021 Procitovano 28 travnya 2021 Tasks with Long Sequences Chatbot Coursera angl originalu za 26 zhovtnya 2020 Procitovano 22 zhovtnya 2020 Reformer The Efficient Transformer Google AI Blog angl 16 sichnya 2020 originalu za 22 zhovtnya 2020 Procitovano 22 zhovtnya 2020 Zhai Shuangfei Talbott Walter Srivastava Nitish Huang Chen Goh Hanlin Zhang Ruixiang Susskind Josh 21 veresnya 2021 An Attention Free Transformer angl arXiv 2105 14103 cs LG Tay Yi Dehghani Mostafa Abnar Samira Shen Yikang Bahri Dara Pham Philip Rao Jinfeng Yang Liu Ruder Sebastian Metzler Donald 8 listopada 2020 Long Range Arena A Benchmark for Efficient Transformers angl arXiv 2011 04006 cs LG Peng Hao Pappas Nikolaos Yogatama Dani Schwartz Roy Smith Noah A Kong Lingpeng 19 bereznya 2021 Random Feature Attention angl arXiv 2103 02143 cs CL Choromanski Krzysztof Likhosherstov Valerii Dohan David Song Xingyou Gane Andreea Sarlos Tamas Hawkins Peter Davis Jared Belanger David Colwell Lucy Weller Adrian 30 veresnya 2020 Masked Language Modeling for Proteins via Linearly Scalable Long Context Transformers angl arXiv 2006 03555 cs LG Radford Alec Kim Jong Wook Xu Tao Brockman Greg McLeavey Christine Sutskever Ilya 2022 Robust Speech Recognition via Large Scale Weak Supervision angl arXiv 2212 04356 eess AS Jaegle Andrew Gimeno Felix Brock Andrew Zisserman Andrew Vinyals Oriol Carreira Joao 22 chervnya 2021 Perceiver General Perception with Iterative Attention angl arXiv 2103 03206 cs CV Jaegle Andrew Borgeaud Sebastian Alayrac Jean Baptiste Doersch Carl Ionescu Catalin Ding David Koppula Skanda Zoran Daniel Brock Andrew Shelhamer Evan Henaff Olivier 2 serpnya 2021 Perceiver IO A General Architecture for Structured Inputs amp Outputs angl arXiv 2107 14795 cs LG Peebles William Xie Saining 2 bereznya 2023 Scalable Diffusion Models with Transformers angl arXiv 2212 09748 cs CV Google AI Unveils Muse a New Text to Image Transformer Model InfoQ angl Using Diffusion Models to Create Superior NeRF Avatars angl 5 sichnya 2023 Islam Arham 14 listopada 2022 How Do DALL E 2 Stable Diffusion and Midjourney Work angl LiteraturaHubert Ramsauer et al 2020 Hopfield Networks is All You Need 18 veresnya 2021 u Wayback Machine signalnij primirnik podanij dlya ICLR 2021 arXiv 2008 02217 div takozh blog 18 veresnya 2021 u Wayback Machine avtoriv angl Obgovorennya diyi transformernogo sharu yak ekvivalentu gopfildovogo utochnennya sho nablizhuye vhid do odniyeyi z neruhomih tochok obraziv podannya neperervnoznachnoyi merezhi Gopfilda dd Alexander Rush The Annotated transformer 22 veresnya 2021 u Wayback Machine Harvard NLP group 3 kvitnya 2018 angl Phuong Mary Hutter Marcus 2022 Formal Algorithms for Transformers angl arXiv 2207 09238