BERT (англ. Bidirectional Encoder Representations from Transformers, двоспрямовані кодувальні представлення з трансформерів) — це методика машинного навчання, що ґрунтується на трансформері, для попереднього тренування обробки природної мови (ОПМ), розроблена Google. BERT було створено й опубліковано 2018 року Джейкобом Девліним та його колегами з Google. Станом на 2019 рік Google застосовувала BERT, щоби краще розуміти пошуки користувачів.
Оригінальна англомовна модель BERT постачається у двох наперед натренованих варіантах: (1) модель BERTBASE, нейромережна архітектура з 12 шарами, 768 прихованими, 12 головами, 110 мільйонами параметрів, та (2) модель BERTLARGE, нейромережна архітектура з 24 шарами, 1024 прихованими, 16 головами, 340 мільйонами параметрів; обидві треновано на з 800 мільйонами слів, та одній з версій англійської Вікіпедії з 2 500 мільйонами слів.
Продуктивність
Коли BERT було опубліковано, вона досягла [en] продуктивності в низці задач розуміння природної мови:
- Наборі задач GLUE (англ. General Language Understanding Evaluation, загальна оцінка розуміння мови, що складається з 9 задач)
- SQuAD (англ. , Стенфордський питально-відповідальний набір даних) версій 1.1 та 2.0
- SWAG (англ. , ситуації зі змагальними породженнями)
Аналіз
Причини [en] продуктивності BERT в цих задачах розуміння природної мови ще не є достатньо зрозумілими. Поточні дослідження зосереджено на дослідженні взаємозв'язку у виході BERT як результату ретельно підібраних послідовностей входу, аналізі внутрішніх векторних представлень за допомогою зондувальних класифікаторів, та взаємозв'язках, представлених вагами (уваги).
Однак за це доводиться платити: через архітектуру лише кодера, без декодера, BERT не може підказувати і не може генерувати текст, тоді як двонаправлені моделі загалом не працюють ефективно без правої сторони, тому їх важко підказувати, а генерування навіть короткого тексту вимагає складних обчислювальних технологій, що вимагають великих витрат.
На відміну від нейронних мереж глибокого навчання, які потребують дуже великих обсягів даних, BERT вже пройшов попереднє навчання, що означає, що він вивчив представлення слів і речень, а також основні семантичні зв'язки, з якими вони пов'язані. Потім BERT може бути точно налаштований на менших наборах даних для конкретних завдань, таких як класифікація настроїв. Попередньо навчені моделі обираються відповідно до змісту набору даних, який використовується, а також мети завдання. Наприклад, якщо завдання полягає в класифікації настроїв за фінансовими даними, слід вибрати попередньо навчену модель для аналізу настроїв фінансового тексту. Ваги оригінальних попередньо навчених моделей були опубліковані на Github.
Історія
BERT бере свій початок з попереднього тренування контекстних представлень, включно з ,, ELMo та . На відміну від попередніх моделей, BERT є глибинно двоспрямованим, спонтанним представленням мови, попередньо тренованим із застосуванням лише простого корпусу тексту. Контекстно-вільні моделі, такі як word2vec та GloVe, породжують представлення вкладення одного слова для кожного зі слів у словнику, тоді як BERT бере до уваги контекст кожного входження заданого слова. Наприклад, якщо вектор для англ. «running» матиме однакове векторне представлення word2vec для його входження як в реченні англ. «He is running a company» («Він керує компанією»), так і в реченні англ. «He is running a marathon» («Він біжить марафон»), то BERT забезпечуватиме контекстоване вкладення, що буде відмінним відповідно до сенсу.
25 жовтня 2019 року Пошук Google анонсував, що вони почали застосовувати моделі BERT для пошукових запитів англійською мовою в межах США. 9 грудня 2019 року було повідомлено, що BERT було прийнято Пошуком Google для понад 70 мов. У жовтні 2020 року майже кожен англомовний запит оброблявся за допомогою BERT-моделі.
Визнання
BERT виграла нагороду за найкращу довгу працю на щорічній конференції Північноамериканського відділення [en] (англ. North American Chapter of the Association for Computational Linguistics, NAACL) 2019 року.
Див. також
Примітки
- Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 жовтня 2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805v2 [cs.CL]. (англ.)
- . Google AI Blog (англ.). Архів оригіналу за 13 січня 2021. Процитовано 27 листопада 2019. (англ.)
- . Google (англ.). 25 жовтня 2019. Архів оригіналу за 27 січня 2021. Процитовано 27 листопада 2019. (англ.)
- Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. с. 19—27. arXiv:1506.06724 [cs.CV]. (англ.)
- Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). . Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (en-us) . с. 4364—4373. doi:10.18653/v1/D19-1445. S2CID 201645145. Архів оригіналу за 20 жовтня 2020. Процитовано 28 жовтня 2020. (англ.)
- Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). What Does BERT Look at? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 276—286. doi:10.18653/v1/w19-4828. (англ.)
- Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 284—294. arXiv:1805.04623. Bibcode:2018arXiv180504623K. doi:10.18653/v1/p18-1027. S2CID 21700944. (англ.)
- Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). Colorless Green Recurrent Networks Dream Hierarchically. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA, USA: Association for Computational Linguistics: 1195—1205. arXiv:1803.11138. Bibcode:2018arXiv180311138G. doi:10.18653/v1/n18-1108. S2CID 4460159. (англ.)
- Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 240—248. arXiv:1808.08079. Bibcode:2018arXiv180808079G. doi:10.18653/v1/w18-5426. S2CID 52090220. (англ.)
- Zhang, Kelly; Bowman, Samuel (2018). Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 359—361. doi:10.18653/v1/w18-5448. (англ.)
- Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (2022). Bidirectional Language Models Are Also Few-shot Learners. ArXiv (англ.). Процитовано 31 березня 2023.
- BERT. Github. Процитовано 28 березня 2023.
- Dai, Andrew; Le, Quoc (4 листопада 2015). Semi-supervised Sequence Learning. arXiv:1511.01432 [cs.LG]. (англ.)
- Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 лютого 2018). Deep contextualized word representations. arXiv:1802.05365v2 [cs.CL]. (англ.)
- Howard, Jeremy; Ruder, Sebastian (18 січня 2018). Universal Language Model Fine-tuning for Text Classification. arXiv:1801.06146v5 [cs.CL]. (англ.)
- Nayak, Pandu (25 жовтня 2019). . Google Blog. Архів оригіналу за 5 грудня 2019. Процитовано 10 грудня 2019. (англ.)
- Montti, Roger (10 грудня 2019). . Search Engine Journal. Search Engine Journal. Архів оригіналу за 29 листопада 2020. Процитовано 10 грудня 2019. (англ.)
- Schwartz, Barry (15 жовтня 2020). Google: BERT now used on almost every English query. Search Engine Land (англ.). Процитовано 31 березня 2023.
- Best Paper Awards. NAACL. 2019. оригіналу за 19 жовтня 2020. Процитовано 28 березня 2020. (англ.)
Посилання
- Офіційний репозиторій GitHub [ 13 січня 2021 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
BERT angl Bidirectional Encoder Representations from Transformers dvospryamovani koduvalni predstavlennya z transformeriv ce metodika mashinnogo navchannya sho gruntuyetsya na transformeri dlya poperednogo trenuvannya obrobki prirodnoyi movi OPM rozroblena Google BERT bulo stvoreno j opublikovano 2018 roku Dzhejkobom Devlinim ta jogo kolegami z Google Stanom na 2019 rik Google zastosovuvala BERT shobi krashe rozumiti poshuki koristuvachiv Originalna anglomovna model BERT postachayetsya u dvoh napered natrenovanih variantah 1 model BERTBASE nejromerezhna arhitektura z 12 sharami 768 prihovanimi 12 golovami 110 miljonami parametriv ta 2 model BERTLARGE nejromerezhna arhitektura z 24 sharami 1024 prihovanimi 16 golovami 340 miljonami parametriv obidvi trenovano na z 800 miljonami sliv ta odnij z versij anglijskoyi Vikipediyi z 2 500 miljonami sliv ProduktivnistKoli BERT bulo opublikovano vona dosyagla en produktivnosti v nizci zadach rozuminnya prirodnoyi movi Nabori zadach GLUE angl General Language Understanding Evaluation zagalna ocinka rozuminnya movi sho skladayetsya z 9 zadach SQuAD angl Stenfordskij pitalno vidpovidalnij nabir danih versij 1 1 ta 2 0 SWAG angl situaciyi zi zmagalnimi porodzhennyami AnalizPrichini en produktivnosti BERT v cih zadachah rozuminnya prirodnoyi movi she ne ye dostatno zrozumilimi Potochni doslidzhennya zoseredzheno na doslidzhenni vzayemozv yazku u vihodi BERT yak rezultatu retelno pidibranih poslidovnostej vhodu analizi vnutrishnih vektornih predstavlen za dopomogoyu zonduvalnih klasifikatoriv ta vzayemozv yazkah predstavlenih vagami uvagi Odnak za ce dovoditsya platiti cherez arhitekturu lishe kodera bez dekodera BERT ne mozhe pidkazuvati i ne mozhe generuvati tekst todi yak dvonapravleni modeli zagalom ne pracyuyut efektivno bez pravoyi storoni tomu yih vazhko pidkazuvati a generuvannya navit korotkogo tekstu vimagaye skladnih obchislyuvalnih tehnologij sho vimagayut velikih vitrat Na vidminu vid nejronnih merezh glibokogo navchannya yaki potrebuyut duzhe velikih obsyagiv danih BERT vzhe projshov poperednye navchannya sho oznachaye sho vin vivchiv predstavlennya sliv i rechen a takozh osnovni semantichni zv yazki z yakimi voni pov yazani Potim BERT mozhe buti tochno nalashtovanij na menshih naborah danih dlya konkretnih zavdan takih yak klasifikaciya nastroyiv Poperedno navcheni modeli obirayutsya vidpovidno do zmistu naboru danih yakij vikoristovuyetsya a takozh meti zavdannya Napriklad yaksho zavdannya polyagaye v klasifikaciyi nastroyiv za finansovimi danimi slid vibrati poperedno navchenu model dlya analizu nastroyiv finansovogo tekstu Vagi originalnih poperedno navchenih modelej buli opublikovani na Github IstoriyaBERT bere svij pochatok z poperednogo trenuvannya kontekstnih predstavlen vklyuchno z ELMo ta Na vidminu vid poperednih modelej BERT ye glibinno dvospryamovanim spontannim predstavlennyam movi poperedno trenovanim iz zastosuvannyam lishe prostogo korpusu tekstu Kontekstno vilni modeli taki yak word2vec ta GloVe porodzhuyut predstavlennya vkladennya odnogo slova dlya kozhnogo zi sliv u slovniku todi yak BERT bere do uvagi kontekst kozhnogo vhodzhennya zadanogo slova Napriklad yaksho vektor dlya angl running matime odnakove vektorne predstavlennya word2vec dlya jogo vhodzhennya yak v rechenni angl He is running a company Vin keruye kompaniyeyu tak i v rechenni angl He is running a marathon Vin bizhit marafon to BERT zabezpechuvatime kontekstovane vkladennya sho bude vidminnim vidpovidno do sensu 25 zhovtnya 2019 roku Poshuk Google anonsuvav sho voni pochali zastosovuvati modeli BERT dlya poshukovih zapitiv anglijskoyu movoyu v mezhah SShA 9 grudnya 2019 roku bulo povidomleno sho BERT bulo prijnyato Poshukom Google dlya ponad 70 mov U zhovtni 2020 roku majzhe kozhen anglomovnij zapit obroblyavsya za dopomogoyu BERT modeli ViznannyaBERT vigrala nagorodu za najkrashu dovgu pracyu na shorichnij konferenciyi Pivnichnoamerikanskogo viddilennya en angl North American Chapter of the Association for Computational Linguistics NAACL 2019 roku Div takozhTransformer arhitektura glibokogo navchannya Word2vec Avtokoduvalnik Dokumentno terminna matricya Vidilyannya oznak Navchannya oznak Nejromerezhna model movi Vektorna model en fastText GloVe TensorFlowPrimitkiDevlin Jacob Chang Ming Wei Lee Kenton Toutanova Kristina 11 zhovtnya 2018 BERT Pre training of Deep Bidirectional Transformers for Language Understanding arXiv 1810 04805v2 cs CL angl Google AI Blog angl Arhiv originalu za 13 sichnya 2021 Procitovano 27 listopada 2019 angl Google angl 25 zhovtnya 2019 Arhiv originalu za 27 sichnya 2021 Procitovano 27 listopada 2019 angl Zhu Yukun Kiros Ryan Zemel Rich Salakhutdinov Ruslan Urtasun Raquel Torralba Antonio Fidler Sanja 2015 Aligning Books and Movies Towards Story Like Visual Explanations by Watching Movies and Reading Books s 19 27 arXiv 1506 06724 cs CV angl Kovaleva Olga Romanov Alexey Rogers Anna Rumshisky Anna November 2019 Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing EMNLP IJCNLP en us s 4364 4373 doi 10 18653 v1 D19 1445 S2CID 201645145 Arhiv originalu za 20 zhovtnya 2020 Procitovano 28 zhovtnya 2020 angl Clark Kevin Khandelwal Urvashi Levy Omer Manning Christopher D 2019 What Does BERT Look at An Analysis of BERT s Attention Proceedings of the 2019 ACL Workshop BlackboxNLP Analyzing and Interpreting Neural Networks for NLP Stroudsburg PA USA Association for Computational Linguistics 276 286 doi 10 18653 v1 w19 4828 angl Khandelwal Urvashi He He Qi Peng Jurafsky Dan 2018 Sharp Nearby Fuzzy Far Away How Neural Language Models Use Context Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics Volume 1 Long Papers Stroudsburg PA USA Association for Computational Linguistics 284 294 arXiv 1805 04623 Bibcode 2018arXiv180504623K doi 10 18653 v1 p18 1027 S2CID 21700944 angl Gulordava Kristina Bojanowski Piotr Grave Edouard Linzen Tal Baroni Marco 2018 Colorless Green Recurrent Networks Dream Hierarchically Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics Human Language Technologies Volume 1 Long Papers Stroudsburg PA USA Association for Computational Linguistics 1195 1205 arXiv 1803 11138 Bibcode 2018arXiv180311138G doi 10 18653 v1 n18 1108 S2CID 4460159 angl Giulianelli Mario Harding Jack Mohnert Florian Hupkes Dieuwke Zuidema Willem 2018 Under the Hood Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information Proceedings of the 2018 EMNLP Workshop BlackboxNLP Analyzing and Interpreting Neural Networks for NLP Stroudsburg PA USA Association for Computational Linguistics 240 248 arXiv 1808 08079 Bibcode 2018arXiv180808079G doi 10 18653 v1 w18 5426 S2CID 52090220 angl Zhang Kelly Bowman Samuel 2018 Language Modeling Teaches You More than Translation Does Lessons Learned Through Auxiliary Syntactic Task Analysis Proceedings of the 2018 EMNLP Workshop BlackboxNLP Analyzing and Interpreting Neural Networks for NLP Stroudsburg PA USA Association for Computational Linguistics 359 361 doi 10 18653 v1 w18 5448 angl Patel Ajay Li Bryan Rasooli Mohammad Sadegh Constant Noah Raffel Colin Callison Burch Chris 2022 Bidirectional Language Models Are Also Few shot Learners ArXiv angl Procitovano 31 bereznya 2023 BERT Github Procitovano 28 bereznya 2023 Dai Andrew Le Quoc 4 listopada 2015 Semi supervised Sequence Learning arXiv 1511 01432 cs LG angl Peters Matthew Neumann Mark Iyyer Mohit Gardner Matt Clark Christopher Lee Kenton Luke Zettlemoyer 15 lyutogo 2018 Deep contextualized word representations arXiv 1802 05365v2 cs CL angl Howard Jeremy Ruder Sebastian 18 sichnya 2018 Universal Language Model Fine tuning for Text Classification arXiv 1801 06146v5 cs CL angl Nayak Pandu 25 zhovtnya 2019 Google Blog Arhiv originalu za 5 grudnya 2019 Procitovano 10 grudnya 2019 angl Montti Roger 10 grudnya 2019 Search Engine Journal Search Engine Journal Arhiv originalu za 29 listopada 2020 Procitovano 10 grudnya 2019 angl Schwartz Barry 15 zhovtnya 2020 Google BERT now used on almost every English query Search Engine Land angl Procitovano 31 bereznya 2023 Best Paper Awards NAACL 2019 originalu za 19 zhovtnya 2020 Procitovano 28 bereznya 2020 angl PosilannyaOficijnij repozitorij GitHub 13 sichnya 2021 u Wayback Machine