Зорови́й трансфо́рмер (англ. Vision Transformer, ViT) — це трансформер, призначений для задач зорової обробки, таких як розпізнавання зображень.
Зорові трансформери
Трансформери знайшли своє початкове застосування у задачах обробки природної мови (ОПМ), що демонструють такі мовні моделі як BERT та GPT-3. На противагу цьому, типова система обробки зображень використовує згорткову нейронну мережу (ЗНМ). До відомих проєктів належать [en], ResNet, EfficientNet,DenseNet та Inception.
Трансформери вимірюють взаємозв'язки (англ. relationships) між парами токенів входу (лексем у випадку текстових стрічок), які називають увагою (англ. attention). Витратність зі зростанням числа токенів зростає експоненційно. Для зображень основною одиницею аналізу є піксель. Проте обчислення взаємозв'язків для кожної з пар пікселів у типовому зображенні є недопускним з точки зору пам'яті та обчислень. Зоровий трансформер натомість обчислює взаємозв'язки між пікселями в різних невеликих ділянках зображення (наприклад, 16×16 пікселів) за різко знижених витрат. Ці ділянки (з позиційними вкладеннями) розташовують у послідовності. Вкладення є векторами, яких можливо навчатися. Кожну з ділянок впорядковують у лінійну послідовність і множать на матрицю вкладення. Результат, із позиційним вкладенням, подають до трансформера.
Як і у випадку з BERT, фундаментальну роль у задачах класифікування відіграє токен класу. Спеціальний токен, який використовують як єдиний вхід для завершальної БШП-голови, оскільки на неї вже вплинули всі інші.
Архітектура для класифікування зображень є найпоширенішою, і для трансформування різних токенів входу вона використовує лише кодувальник Трансформера. Проте існують й інші застосування, в яких використовують також і декодувальну частину традиційної архітектури Трансформера.
Історія
Трансформери, спершу представлені 2017 року у відомій праці «Увага — це все, що вам потрібно», широко поширилися у сфері обробки природної мови, незабаром ставши однією з найширше використовуваних та найперспективніших архітектур у цій галузі.
2020 року, з працею «Зображення вартує 16×16 слів», для виконання завдань у комп'ютернім баченні було пристосовано Зорові трансформери. Їхня ідея полягає в тому, щоби розбивати вхідні зображення на низку фрагментів, які, перетворивши їх на вектори, розглядати як слова у звичайному трансформері.
Якщо в галузі обробки природної мови механізм уваги Трансформерів намагався вловлювати взаємозв'язки між різними словами аналізованого тексту, то в комп'ютернім баченні Зорові трансформери намагаються натомість вловлювати взаємозв'язки між різними частинами зображення.
2021 року чиста трансформерова модель продемонструвала кращу продуктивність та більшу ефективність у класифікуванні зображень, аніж ЗНМ.
У дослідженні від червня 2021 року було додано трансформерову післяобробку до ResNet, що різко скоротило витрати та підвищило точність.
Того ж року було запропоновано деякі важливі варіанти Зорових трансформерів. Ці варіанти здебільшого мають на меті бути ефективнішими, точнішими, або краще пристосованими до певної області. Серед найактуальніших — Swin Transformer, який, завдяки деяким видозмінам механізму уваги та багатоступеневому підходу, досяг передових результатів на деяких наборах даних виявляння об'єктів, як-то COCO. Іншим цікавим варіантом є TimeSformer, розроблений для задач розуміння відео, й здатний вловлювати просторову та часову інформацію за рахунок використання розділеної просторово-часової уваги.
Зорові трансформери вже 2021 року виявилися здатними вийти з лабораторії й потрапити до однієї з найважливіших галузей комп'ютерного бачення, автономної їзди. Інженери Тесла продемонстрували під час Дня ШІ Тесла, що їхня система автопілоту насправді, серед інших систем, використовує Трансформер, який переважно використовують для правильної роботи багатокамерної системи на автомобілях.
Порівняння зі згортковими нейронними мережами
Продуктивність Зорових трансформерів залежить від рішень, включно з рішеннями стосовно оптимізатора, специфічних для набору даних гіперпараметрів, та глибини мережі. Оптимізувати ЗНМ набагато простіше.
Однією з видозмін чистого трансформера є одруження трансформера зі основою/передобробкою ЗНМ. Типова основа Зорового трансформера використовує згортку 16×16 з кроком 16. На відміну від цього, згортка 3×3 із кроком 2 збільшує стабільність, а також покращує точність.
ЗНМ здійснює перетворення з базового рівня пікселів до карти ознак. Токенувальник перетворює карту ознак на низку токенів, які потім подають до трансформера, який застосовує механізм уваги для створення низки токенів виходу. Проєктор, зрештою, знову з'єднує токени виходу з картою ознак. Останнє дозволяє аналізові використовувати потенційно значущі деталі на рівні пікселів. Це різко зменшує кількість токенів, необхідних для аналізу, відповідно знижуючи витрати.
Відмінностей між ЗНМ та Зоровими трансформерами багато, і полягають вони головним чином у їхніх архітектурних відмінностях.
Насправді ЗНМ досягають чудових результатів навіть за тренування на основі обсягів даних, що є не настільки великими, як того вимагають Зорові трансформери.
Ця відмінність у поведінці, схоже, випливає з наявності в ЗНМ деяких індуктивних упереджень, які можуть так чи інакше використовуватися цими мережами для швидшого схоплювання особливостей аналізованих зображень, навіть якщо, з іншого боку, вони зрештою обмежують їх, ускладнюючи схоплювання ними глобальних взаємозв'язків.
З іншого боку, Зорові трансформери є вільними від цих упереджень, що призводить до їхньої здатності схоплювати також глобальні й ширші взаємозв'язки, але ціною обтяжливішого з точки зору даних навчання.
Зорові трансформери також довели свою здатність бути набагато стійкішими до спотворень вхідних зображень, таких як змагальне затуляння або переставляння.
Проте обирання однієї архітектури замість іншої не завжди наймудріший вибір, і чудові результати отримано в кількох задачах комп'ютерного бачення за допомогою гібридних архітектур, що поєднують згорткові шари з Зоровими трансформерами.
Роль самокерованого навчання
Значна потреба в даних на етапі тренування зробила необхідним пошук альтернативних методів для тренування цих моделей, і тепер центральну роль відіграють методи самокерованого навчання. Із застосуванням цих підходів можливо тренувати нейронну мережу практично автономним чином, дозволяючи їй виводити особливості конкретної задачі без потреби у створенні великого набору даних, або надавання їй точно встановлених міток. Можливість тренувати Зоровий трансформер без необхідності мати у своєму розпорядженні величезний набір даних бачення може стати ключем до широкого розповсюдження цієї перспективної нової архітектури.
Найзначнішого результату досягли дослідники з Facebook AI із DINO, методом самокерування для тренування Зорового трансформера. Із застосуванням цього підходу отримано чудові результати у задачах класифікування на важливих наборів даних, таких як [en], але, і насамперед, вражаючі результати у сегментуванні та кластеруванні відео.
Застосування
Зорові трансформери використовували в багатьох задачах комп'ютерного бачення з чудовими результатами, а в деяких випадках навіть із передовими.
До найактуальніших сфер застосування належать:
Втілення
Існує багато втілень Зорових трансформерів та їхніх варіантів, доступних у відкритому коді в Інтернеті. Основні версії цієї архітектури втілено в PyTorch, але також зроблено доступними втілення й для Tensorflow.
Див. також
Примітки
- Sarkar, Arjun (20 травня 2021). . Medium (англ.). Архів оригіналу за 11 травня 2022. Процитовано 11 липня 2021. (англ.)
- Tan, Mingxing; Le, Quoc V. (23 червня 2021). EfficientNet V2: Smaller Models and Faster Training. arXiv:2104.00298 [cs.CV]. (англ.)
- Huang, Gao; Liu, Zhuang; van der Maaten, Laurens; Q. Weinberger, Kilian (28 січня 2018). Densely Connected Convolutional Networks. arXiv:1608.06993 [cs.CV]. (англ.)
- Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (5 грудня 2017). . arXiv:1706.03762 [cs]. Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Dosovitskiy, Alexey; Beyer, Lucas; Kolesnikov, Alexander; Weissenborn, Dirk; Zhai, Xiaohua; Unterthiner, Thomas; Dehghani, Mostafa; Minderer, Matthias; Heigold, Georg; Gelly, Sylvain; Uszkoreit, Jakob (3 червня 2021). . arXiv:2010.11929 [cs]. Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Synced (12 червня 2020). . Medium (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 11 липня 2021. (англ.)
- Wu, Bichen; Xu, Chenfeng; Dai, Xiaoliang; Wan, Alvin; Zhang, Peizhao; Yan, Zhicheng; Masayoshi, Tomizuka; Gonzalez, Joseph; Keutzer, Kurt; Vajda, Peter (2020). Visual Transformers: Token-based Image Representation and Processing forComputer Vision. arXiv:2006.03677 [cs.CV]. (англ.)
- Xiao, Tete; Singh, Mannat; Mintun, Eric; Darrell, Trevor; Dollár, Piotr; Girshick, Ross (28 червня 2021). Early Convolutions Help Transformers See Better. arXiv:2106.14881 [cs.CV]. (англ.)
- Liu, Ze; Lin, Yutong; Cao, Yue; Hu, Han; Wei, Yixuan; Zhang, Zheng; Lin, Stephen; Guo, Baining (25 березня 2021). (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Bertasius, Gedas; Wang, Heng; Torresani, Lorenzo (9 лютого 2021). (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Coccomini, Davide (31 березня 2021). . Towards Data Science. Архів оригіналу за 3 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Tesla AI Day на YouTube (англ.)
- Raghu, Maithra; Unterthiner, Thomas; Kornblith, Simon; Zhang, Chiyuan; Dosovitskiy, Alexey (19 серпня 2021). . arXiv:2108.08810 [cs, stat]. Архів оригіналу за 19 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Coccomini, Davide (24 липня 2021). Vision Transformers or Convolutional Neural Networks? Both!. Towards Data Science. (англ.)
- Naseer, Muzammal; Ranasinghe, Kanchana; Khan, Salman; Hayat, Munawar; Khan, Fahad Shahbaz; Yang, Ming-Hsuan (21 травня 2021). (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Dai, Zihang; Liu, Hanxiao; Le, Quoc V.; Tan, Mingxing (9 червня 2021). (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Wu, Haiping; Xiao, Bin; Codella, Noel; Liu, Mengchen; Dai, Xiyang; Yuan, Lu; Zhang, Lei (29 березня 2021). (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Coccomini, Davide; Messina, Nicola; Gennaro, Claudio; Falchi, Fabrizio (6 липня 2021). (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Coccomini, Davide (24 липня 2021). . Towards Data Science. Архів оригіналу за 3 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- Caron, Mathilde; Touvron, Hugo; Misra, Ishan; Jégou, Hervé; Mairal, Julien; Bojanowski, Piotr; Joulin, Armand (29 квітня 2021). (англ.). Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- . Facebook AI. 30 квітня 2021. Архів оригіналу за 17 жовтня 2021. Процитовано 17 жовтня 2021. (англ.)
- vit-pytorch на GitHub
- Salama, Khalid (18 січня 2021). . keras.io. Архів оригіналу за 3 жовтня 2021. Процитовано 17 жовтня 2021.
Посилання
- Igarashi, Yoshiyuki (4 лютого 2021). Are You Ready for Vision Transformer (ViT)?. Medium (англ.). Процитовано 11 липня 2021. (англ.)
- Coccomini, Davide (3 травня 2021). . Towards Data Science. Архів оригіналу за 3 травня 2021. Процитовано 3 жовтня 2021. (англ.)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Zorovi j transfo rmer angl Vision Transformer ViT ce transformer priznachenij dlya zadach zorovoyi obrobki takih yak rozpiznavannya zobrazhen Zorovi transformeriArhitektura Zorovogo transformera dlya klasifikuvannya zobrazhen Transformeri znajshli svoye pochatkove zastosuvannya u zadachah obrobki prirodnoyi movi OPM sho demonstruyut taki movni modeli yak BERT ta GPT 3 Na protivagu comu tipova sistema obrobki zobrazhen vikoristovuye zgortkovu nejronnu merezhu ZNM Do vidomih proyektiv nalezhat en ResNet EfficientNet DenseNet ta Inception Transformeri vimiryuyut vzayemozv yazki angl relationships mizh parami tokeniv vhodu leksem u vipadku tekstovih strichok yaki nazivayut uvagoyu angl attention Vitratnist zi zrostannyam chisla tokeniv zrostaye eksponencijno Dlya zobrazhen osnovnoyu odiniceyu analizu ye piksel Prote obchislennya vzayemozv yazkiv dlya kozhnoyi z par pikseliv u tipovomu zobrazhenni ye nedopusknim z tochki zoru pam yati ta obchislen Zorovij transformer natomist obchislyuye vzayemozv yazki mizh pikselyami v riznih nevelikih dilyankah zobrazhennya napriklad 16 16 pikseliv za rizko znizhenih vitrat Ci dilyanki z pozicijnimi vkladennyami roztashovuyut u poslidovnosti Vkladennya ye vektorami yakih mozhlivo navchatisya Kozhnu z dilyanok vporyadkovuyut u linijnu poslidovnist i mnozhat na matricyu vkladennya Rezultat iz pozicijnim vkladennyam podayut do transformera Yak i u vipadku z BERT fundamentalnu rol u zadachah klasifikuvannya vidigraye token klasu Specialnij token yakij vikoristovuyut yak yedinij vhid dlya zavershalnoyi BShP golovi oskilki na neyi vzhe vplinuli vsi inshi Arhitektura dlya klasifikuvannya zobrazhen ye najposhirenishoyu i dlya transformuvannya riznih tokeniv vhodu vona vikoristovuye lishe koduvalnik Transformera Prote isnuyut j inshi zastosuvannya v yakih vikoristovuyut takozh i dekoduvalnu chastinu tradicijnoyi arhitekturi Transformera IstoriyaTransformeri spershu predstavleni 2017 roku u vidomij praci Uvaga ce vse sho vam potribno shiroko poshirilisya u sferi obrobki prirodnoyi movi nezabarom stavshi odniyeyu z najshirshe vikoristovuvanih ta najperspektivnishih arhitektur u cij galuzi 2020 roku z praceyu Zobrazhennya vartuye 16 16 sliv dlya vikonannya zavdan u komp yuternim bachenni bulo pristosovano Zorovi transformeri Yihnya ideya polyagaye v tomu shobi rozbivati vhidni zobrazhennya na nizku fragmentiv yaki peretvorivshi yih na vektori rozglyadati yak slova u zvichajnomu transformeri Yaksho v galuzi obrobki prirodnoyi movi mehanizm uvagi Transformeriv namagavsya vlovlyuvati vzayemozv yazki mizh riznimi slovami analizovanogo tekstu to v komp yuternim bachenni Zorovi transformeri namagayutsya natomist vlovlyuvati vzayemozv yazki mizh riznimi chastinami zobrazhennya 2021 roku chista transformerova model prodemonstruvala krashu produktivnist ta bilshu efektivnist u klasifikuvanni zobrazhen anizh ZNM U doslidzhenni vid chervnya 2021 roku bulo dodano transformerovu pislyaobrobku do ResNet sho rizko skorotilo vitrati ta pidvishilo tochnist Togo zh roku bulo zaproponovano deyaki vazhlivi varianti Zorovih transformeriv Ci varianti zdebilshogo mayut na meti buti efektivnishimi tochnishimi abo krashe pristosovanimi do pevnoyi oblasti Sered najaktualnishih Swin Transformer yakij zavdyaki deyakim vidozminam mehanizmu uvagi ta bagatostupenevomu pidhodu dosyag peredovih rezultativ na deyakih naborah danih viyavlyannya ob yektiv yak to COCO Inshim cikavim variantom ye TimeSformer rozroblenij dlya zadach rozuminnya video j zdatnij vlovlyuvati prostorovu ta chasovu informaciyu za rahunok vikoristannya rozdilenoyi prostorovo chasovoyi uvagi Zorovi transformeri vzhe 2021 roku viyavilisya zdatnimi vijti z laboratoriyi j potrapiti do odniyeyi z najvazhlivishih galuzej komp yuternogo bachennya avtonomnoyi yizdi Inzheneri Tesla prodemonstruvali pid chas Dnya ShI Tesla sho yihnya sistema avtopilotu naspravdi sered inshih sistem vikoristovuye Transformer yakij perevazhno vikoristovuyut dlya pravilnoyi roboti bagatokamernoyi sistemi na avtomobilyah Porivnyannya zi zgortkovimi nejronnimi merezhamiProduktivnist Zorovih transformeriv zalezhit vid rishen vklyuchno z rishennyami stosovno optimizatora specifichnih dlya naboru danih giperparametriv ta glibini merezhi Optimizuvati ZNM nabagato prostishe Odniyeyu z vidozmin chistogo transformera ye odruzhennya transformera zi osnovoyu peredobrobkoyu ZNM Tipova osnova Zorovogo transformera vikoristovuye zgortku 16 16 z krokom 16 Na vidminu vid cogo zgortka 3 3 iz krokom 2 zbilshuye stabilnist a takozh pokrashuye tochnist ZNM zdijsnyuye peretvorennya z bazovogo rivnya pikseliv do karti oznak Tokenuvalnik peretvoryuye kartu oznak na nizku tokeniv yaki potim podayut do transformera yakij zastosovuye mehanizm uvagi dlya stvorennya nizki tokeniv vihodu Proyektor zreshtoyu znovu z yednuye tokeni vihodu z kartoyu oznak Ostannye dozvolyaye analizovi vikoristovuvati potencijno znachushi detali na rivni pikseliv Ce rizko zmenshuye kilkist tokeniv neobhidnih dlya analizu vidpovidno znizhuyuchi vitrati Vidminnostej mizh ZNM ta Zorovimi transformerami bagato i polyagayut voni golovnim chinom u yihnih arhitekturnih vidminnostyah Naspravdi ZNM dosyagayut chudovih rezultativ navit za trenuvannya na osnovi obsyagiv danih sho ye ne nastilki velikimi yak togo vimagayut Zorovi transformeri Cya vidminnist u povedinci shozhe viplivaye z nayavnosti v ZNM deyakih induktivnih uperedzhen yaki mozhut tak chi inakshe vikoristovuvatisya cimi merezhami dlya shvidshogo shoplyuvannya osoblivostej analizovanih zobrazhen navit yaksho z inshogo boku voni zreshtoyu obmezhuyut yih uskladnyuyuchi shoplyuvannya nimi globalnih vzayemozv yazkiv Z inshogo boku Zorovi transformeri ye vilnimi vid cih uperedzhen sho prizvodit do yihnoyi zdatnosti shoplyuvati takozh globalni j shirshi vzayemozv yazki ale cinoyu obtyazhlivishogo z tochki zoru danih navchannya Zorovi transformeri takozh doveli svoyu zdatnist buti nabagato stijkishimi do spotvoren vhidnih zobrazhen takih yak zmagalne zatulyannya abo perestavlyannya Prote obirannya odniyeyi arhitekturi zamist inshoyi ne zavzhdi najmudrishij vibir i chudovi rezultati otrimano v kilkoh zadachah komp yuternogo bachennya za dopomogoyu gibridnih arhitektur sho poyednuyut zgortkovi shari z Zorovimi transformerami Rol samokerovanogo navchannyaZnachna potreba v danih na etapi trenuvannya zrobila neobhidnim poshuk alternativnih metodiv dlya trenuvannya cih modelej i teper centralnu rol vidigrayut metodi samokerovanogo navchannya Iz zastosuvannyam cih pidhodiv mozhlivo trenuvati nejronnu merezhu praktichno avtonomnim chinom dozvolyayuchi yij vivoditi osoblivosti konkretnoyi zadachi bez potrebi u stvorenni velikogo naboru danih abo nadavannya yij tochno vstanovlenih mitok Mozhlivist trenuvati Zorovij transformer bez neobhidnosti mati u svoyemu rozporyadzhenni velicheznij nabir danih bachennya mozhe stati klyuchem do shirokogo rozpovsyudzhennya ciyeyi perspektivnoyi novoyi arhitekturi Najznachnishogo rezultatu dosyagli doslidniki z Facebook AI iz DINO metodom samokeruvannya dlya trenuvannya Zorovogo transformera Iz zastosuvannyam cogo pidhodu otrimano chudovi rezultati u zadachah klasifikuvannya na vazhlivih naboriv danih takih yak en ale i nasampered vrazhayuchi rezultati u segmentuvanni ta klasteruvanni video ZastosuvannyaZorovi transformeri vikoristovuvali v bagatoh zadachah komp yuternogo bachennya z chudovimi rezultatami a v deyakih vipadkah navit iz peredovimi Do najaktualnishih sfer zastosuvannya nalezhat Klasifikuvannya zobrazhen Viyavlyannya ob yektiv Viyavlyannya glibokogo falshuvannya video Segmentuvannya zobrazhen Viyavlyannya anomalij Sintezuvannya zobrazhen Klasternij analiz Avtonomna yizdaVtilennyaIsnuye bagato vtilen Zorovih transformeriv ta yihnih variantiv dostupnih u vidkritomu kodi v Interneti Osnovni versiyi ciyeyi arhitekturi vtileno v PyTorch ale takozh zrobleno dostupnimi vtilennya j dlya Tensorflow Div takozhTransformer arhitektura glibokogo navchannya Uvaga mashinne navchannya Persiver Gliboke navchannya PyTorch TensorFlowPrimitkiSarkar Arjun 20 travnya 2021 Medium angl Arhiv originalu za 11 travnya 2022 Procitovano 11 lipnya 2021 angl Tan Mingxing Le Quoc V 23 chervnya 2021 EfficientNet V2 Smaller Models and Faster Training arXiv 2104 00298 cs CV angl Huang Gao Liu Zhuang van der Maaten Laurens Q Weinberger Kilian 28 sichnya 2018 Densely Connected Convolutional Networks arXiv 1608 06993 cs CV angl Vaswani Ashish Shazeer Noam Parmar Niki Uszkoreit Jakob Jones Llion Gomez Aidan N Kaiser Lukasz Polosukhin Illia 5 grudnya 2017 arXiv 1706 03762 cs Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Dosovitskiy Alexey Beyer Lucas Kolesnikov Alexander Weissenborn Dirk Zhai Xiaohua Unterthiner Thomas Dehghani Mostafa Minderer Matthias Heigold Georg Gelly Sylvain Uszkoreit Jakob 3 chervnya 2021 arXiv 2010 11929 cs Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Synced 12 chervnya 2020 Medium angl Arhiv originalu za 17 zhovtnya 2021 Procitovano 11 lipnya 2021 angl Wu Bichen Xu Chenfeng Dai Xiaoliang Wan Alvin Zhang Peizhao Yan Zhicheng Masayoshi Tomizuka Gonzalez Joseph Keutzer Kurt Vajda Peter 2020 Visual Transformers Token based Image Representation and Processing forComputer Vision arXiv 2006 03677 cs CV angl Xiao Tete Singh Mannat Mintun Eric Darrell Trevor Dollar Piotr Girshick Ross 28 chervnya 2021 Early Convolutions Help Transformers See Better arXiv 2106 14881 cs CV angl Liu Ze Lin Yutong Cao Yue Hu Han Wei Yixuan Zhang Zheng Lin Stephen Guo Baining 25 bereznya 2021 angl Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Bertasius Gedas Wang Heng Torresani Lorenzo 9 lyutogo 2021 angl Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Coccomini Davide 31 bereznya 2021 Towards Data Science Arhiv originalu za 3 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Tesla AI Day na YouTube angl Raghu Maithra Unterthiner Thomas Kornblith Simon Zhang Chiyuan Dosovitskiy Alexey 19 serpnya 2021 arXiv 2108 08810 cs stat Arhiv originalu za 19 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Coccomini Davide 24 lipnya 2021 Vision Transformers or Convolutional Neural Networks Both Towards Data Science angl Naseer Muzammal Ranasinghe Kanchana Khan Salman Hayat Munawar Khan Fahad Shahbaz Yang Ming Hsuan 21 travnya 2021 angl Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Dai Zihang Liu Hanxiao Le Quoc V Tan Mingxing 9 chervnya 2021 angl Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Wu Haiping Xiao Bin Codella Noel Liu Mengchen Dai Xiyang Yuan Lu Zhang Lei 29 bereznya 2021 angl Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Coccomini Davide Messina Nicola Gennaro Claudio Falchi Fabrizio 6 lipnya 2021 angl Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Coccomini Davide 24 lipnya 2021 Towards Data Science Arhiv originalu za 3 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Caron Mathilde Touvron Hugo Misra Ishan Jegou Herve Mairal Julien Bojanowski Piotr Joulin Armand 29 kvitnya 2021 angl Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl Facebook AI 30 kvitnya 2021 Arhiv originalu za 17 zhovtnya 2021 Procitovano 17 zhovtnya 2021 angl vit pytorch na GitHub Salama Khalid 18 sichnya 2021 keras io Arhiv originalu za 3 zhovtnya 2021 Procitovano 17 zhovtnya 2021 PosilannyaIgarashi Yoshiyuki 4 lyutogo 2021 Are You Ready for Vision Transformer ViT Medium angl Procitovano 11 lipnya 2021 angl Coccomini Davide 3 travnya 2021 Towards Data Science Arhiv originalu za 3 travnya 2021 Procitovano 3 zhovtnya 2021 angl