Персі́вер (англ. Perceiver, укр. Сприймач) — це трансформер, пристосований для обробки нетекстових даних, таких як зображення, звуки та відео, та просторових даних. Трансформери лежать в основі інших відомих систем, таких як BERT і GPT-3, які передували Персіверові. Він використовує механізм асиметричної уваги, щоби переганяти дані входу до латентного вузького подання, що дає йому можливість вчитися з великої кількості гетерогенних даних. На задачах класифікації Персівер наздоганяє або перевершує спеціалізовані моделі.
Історія
Персівер було представлено у червні 2021 року компанією DeepMind. У серпні 2021 року слідом за ним вийшов Персівер ВВ (англ. Perceiver IO).
Конструкція
Персівер сконструйовано без специфічних для певних модальностей елементів. Наприклад, він не має спеціалізованих елементів для обробки зображень, тексту чи звуку. Понад те, він може обробляти декілька корельованих вхідних потоків різної природи. Він використовує невеликий набір латентних вузлів, що утворює вузьке місце для уваги, через яке мусять проходити дані входу. Однією з переваг є усунення проблеми квадратичного масштабування, виявленої в ранніх трансформерах. У попередніх працях використовували спеціальне виділяння ознак для кожної з модальностей.
Він пов'язує ознаки положення, та ознаки, специфічні для модальностей, з кожним елементом входу (наприклад, з кожним пікселем або відліком звуку). Цих ознак можливо навчатися, або конструювати їх за допомогою точновідтворювальних ознак Фур'є.
Щоби створювати шари лінійної складності, та відв'язати глибину мережі від розміру входу, Персівер використовує перехресну увагу. Це відв'язування уможливлює глибші архітектури.
Складові
Модуль перехресної уваги відображує (більший) масив байтів (наприклад, масив пікселів), та (менший) латентний масив, до іншого латентного масиву, знижуючи розмірність. Трансформерова вежа відображує один латентний масив до іншого латентного масиву, який використовується для повторного запиту до входу. Ці дві складові йдуть почергово. Обидві складові використовують увагу «запит-ключ-значення» (ЗКЗ, англ. query-key-value, QKV). Увага ЗКЗ застосовує мережі запиту, ключа та значень, що зазвичай є багатошаровими перцептронами, до кожного з елементів масиву входу, утворюючи три масиви, які зберігають розмірність номерів елементів (або довжину послідовності) своїх входів.
Персівер ВВ
Персівер ВВ (англ. Perceiver IO) здатен гнучко робити запити до латентного простору моделі для отримування результатів довільного розміру та семантики. Він досягає результатів у задачах зі структурованими просторами виходу, такими як розуміння природної мови та зображень, StarCraft II, та багатозадачність. Персівер ВВ відповідає базовому рівневі BERT на основі трансформерів за мовним еталоном GLUE без необхідності видобування позначок входу, та досягає передової продуктивності в оцінюванні оптичного потоку Sintel.
Вихідні дані виробляються через увагу до латентного масиву із застосуванням специфічного запиту виходу, пов'язаного з цим конкретним виходом. Наприклад, щоби передбачити оптичний потік на одному пікселі, запит активуватиме увагу, застосовуючи координати xy пікселя, плюс вкладення задачі оптичного потоку, виробляючи один вектор потоку. Це є різновидом кодувально/декодувальної архітектури, яку використовують в інших конструкціях.
Продуктивність
Продуктивність Персівера є порівнянною з ResNet-50 та Зоровим трансформером на [en] без двовимірних згорток. Він покриває увагою до 50 000 пікселів. Він є конкурентоспроможним у всіх модальностях в AudioSet.
Див. також
Примітки
- Ray, Tiernan. . ZDNet (англ.). Архів оригіналу за 29 жовтня 2021. Процитовано 19 серпня 2021. (англ.)
- Jaegle, Andrew; Gimeno, Felix; Brock, Andrew; Zisserman, Andrew; Vinyals, Oriol; Carreira, Joao (22 червня 2021). Perceiver: General Perception with Iterative Attention. arXiv:2103.03206 [cs.CV]. (англ.)
- Jaegle, Andrew; Borgeaud, Sebastian; Alayrac, Jean-Baptiste; Doersch, Carl; Ionescu, Catalin; Ding, David; Koppula, Skanda; Zoran, Daniel; Brock, Andrew; Shelhamer, Evan; Hénaff, Olivier (2 серпня 2021). Perceiver IO: A General Architecture for Structured Inputs & Outputs. arXiv:2107.14795 [cs.LG]. (англ.)
Посилання
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Persi ver angl Perceiver ukr Sprijmach ce transformer pristosovanij dlya obrobki netekstovih danih takih yak zobrazhennya zvuki ta video ta prostorovih danih Transformeri lezhat v osnovi inshih vidomih sistem takih yak BERT i GPT 3 yaki pereduvali Persiverovi Vin vikoristovuye mehanizm asimetrichnoyi uvagi shobi pereganyati dani vhodu do latentnogo vuzkogo podannya sho daye jomu mozhlivist vchitisya z velikoyi kilkosti geterogennih danih Na zadachah klasifikaciyi Persiver nazdoganyaye abo perevershuye specializovani modeli IstoriyaPersiver bulo predstavleno u chervni 2021 roku kompaniyeyu DeepMind U serpni 2021 roku slidom za nim vijshov Persiver VV angl Perceiver IO KonstrukciyaPersiver skonstrujovano bez specifichnih dlya pevnih modalnostej elementiv Napriklad vin ne maye specializovanih elementiv dlya obrobki zobrazhen tekstu chi zvuku Ponad te vin mozhe obroblyati dekilka korelovanih vhidnih potokiv riznoyi prirodi Vin vikoristovuye nevelikij nabir latentnih vuzliv sho utvoryuye vuzke misce dlya uvagi cherez yake musyat prohoditi dani vhodu Odniyeyu z perevag ye usunennya problemi kvadratichnogo masshtabuvannya viyavlenoyi v rannih transformerah U poperednih pracyah vikoristovuvali specialne vidilyannya oznak dlya kozhnoyi z modalnostej Vin pov yazuye oznaki polozhennya ta oznaki specifichni dlya modalnostej z kozhnim elementom vhodu napriklad z kozhnim pikselem abo vidlikom zvuku Cih oznak mozhlivo navchatisya abo konstruyuvati yih za dopomogoyu tochnovidtvoryuvalnih oznak Fur ye Shobi stvoryuvati shari linijnoyi skladnosti ta vidv yazati glibinu merezhi vid rozmiru vhodu Persiver vikoristovuye perehresnu uvagu Ce vidv yazuvannya umozhlivlyuye glibshi arhitekturi Skladovi Modul perehresnoyi uvagi vidobrazhuye bilshij masiv bajtiv napriklad masiv pikseliv ta menshij latentnij masiv do inshogo latentnogo masivu znizhuyuchi rozmirnist Transformerova vezha vidobrazhuye odin latentnij masiv do inshogo latentnogo masivu yakij vikoristovuyetsya dlya povtornogo zapitu do vhodu Ci dvi skladovi jdut pochergovo Obidvi skladovi vikoristovuyut uvagu zapit klyuch znachennya ZKZ angl query key value QKV Uvaga ZKZ zastosovuye merezhi zapitu klyucha ta znachen sho zazvichaj ye bagatosharovimi perceptronami do kozhnogo z elementiv masivu vhodu utvoryuyuchi tri masivi yaki zberigayut rozmirnist nomeriv elementiv abo dovzhinu poslidovnosti svoyih vhodiv Persiver VV Persiver VV angl Perceiver IO zdaten gnuchko robiti zapiti do latentnogo prostoru modeli dlya otrimuvannya rezultativ dovilnogo rozmiru ta semantiki Vin dosyagaye rezultativ u zadachah zi strukturovanimi prostorami vihodu takimi yak rozuminnya prirodnoyi movi ta zobrazhen StarCraft II ta bagatozadachnist Persiver VV vidpovidaye bazovomu rivnevi BERT na osnovi transformeriv za movnim etalonom GLUE bez neobhidnosti vidobuvannya poznachok vhodu ta dosyagaye peredovoyi produktivnosti v ocinyuvanni optichnogo potoku Sintel Vihidni dani viroblyayutsya cherez uvagu do latentnogo masivu iz zastosuvannyam specifichnogo zapitu vihodu pov yazanogo z cim konkretnim vihodom Napriklad shobi peredbachiti optichnij potik na odnomu pikseli zapit aktivuvatime uvagu zastosovuyuchi koordinati xy pikselya plyus vkladennya zadachi optichnogo potoku viroblyayuchi odin vektor potoku Ce ye riznovidom koduvalno dekoduvalnoyi arhitekturi yaku vikoristovuyut v inshih konstrukciyah ProduktivnistProduktivnist Persivera ye porivnyannoyu z ResNet 50 ta Zorovim transformerom na en bez dvovimirnih zgortok Vin pokrivaye uvagoyu do 50 000 pikseliv Vin ye konkurentospromozhnim u vsih modalnostyah v AudioSet Div takozhZgortkova nejronna merezha Transformer arhitektura glibokogo navchannya PrimitkiRay Tiernan ZDNet angl Arhiv originalu za 29 zhovtnya 2021 Procitovano 19 serpnya 2021 angl Jaegle Andrew Gimeno Felix Brock Andrew Zisserman Andrew Vinyals Oriol Carreira Joao 22 chervnya 2021 Perceiver General Perception with Iterative Attention arXiv 2103 03206 cs CV angl Jaegle Andrew Borgeaud Sebastian Alayrac Jean Baptiste Doersch Carl Ionescu Catalin Ding David Koppula Skanda Zoran Daniel Brock Andrew Shelhamer Evan Henaff Olivier 2 serpnya 2021 Perceiver IO A General Architecture for Structured Inputs amp Outputs arXiv 2107 14795 cs LG angl PosilannyaDeepMind Perceiver and Perceiver IO Paper Explained na YouTube Perceiver General Perception with Iterative Attention Google DeepMind Research Paper Explained na YouTube dokladnishe visvitleno oznaki Fur ye