Вбудовування речень — це збірна назва для набору методів обробки природної мови (NLP), де речення зіставляються з векторами дійсних чисел .
Застосування
Бібліотеки програмного забезпечення глибокого навчання PyTorch і TensorFlow використовують вбудовування речень.
Популярні вбудовування базуються на вихідних даних прихованого шару моделей трансформаторів, таких як BERT. Альтернативним напрямком є об'єднання вбудованих слів, наприклад, тих, які повертаються Word2vec, у вбудовані речення. Найпрямолінійніший підхід — просто обчислити середнє значення векторів слів, відомих як безперервний пакет слів (CBOW). Однак також були запропоновані більш складні рішення, засновані на векторному квантуванні слів. Одним із таких підходів є вектор локально агрегованих вбудованих слів (VLAWE), який продемонстрував покращення продуктивності в завданнях класифікації подальшого тексту.
Оцінка
Для тестування кодувань речень застосувують їх до корпусу речень, що містять композиційні знання (SICK) як для втягування (SICK-E), так і для пов'язаності (SICK-R).
Найкращі результати отримуються завдяки використанню мережі BiLSTM, натренованої на Стенфордському корпусі висновків з природної мови (SNLI) . Коефіцієнт кореляції Пірсона для SICK-R дорівнює 0,885, а результат для SICK-E — 86,3. Незначне покращення у порівнянні з попередніми показниками презентоване в: SICK-R: 0,888 і SICK-E: 87,8 з використанням конкатенації двонаправленого рекурентного блоку Gated .
Див. також
Посилання
- Вбудовані речення InferSent і навчальний код
- Універсальний кодувальник речень
- Вивчення розподілених представлень речень загального призначення за допомогою широкомасштабного багатозадачного навчання
Примітки
- Paper Summary: Evaluation of sentence embeddings in downstream and linguistic probing tasks[недоступне посилання]
- The Current Best of Universal Word Embeddings and Sentence Embeddings
- Sanjeev Arora, Yingyu Liang, and Tengyu Ma. «A simple but tough-to-beat baseline for sentence embeddings.», 2016; openreview: SyK00v5xx.
- Trifan, Mircea; Ionescu, Bogdan; Gadea, Cristian; Ionescu, Dan (2015). A graph digital signal processing method for semantic analysis. 2015 IEEE 10th Jubilee International Symposium on Applied Computational Intelligence and Informatics. с. 187—192. doi:10.1109/SACI.2015.7208196. ISBN .
- Basile, Pierpaolo; Caputo, Annalina; Semeraro, Giovanni (2012). A Study on Compositional Semantics of Words in Distributional Spaces. 2012 IEEE Sixth International Conference on Semantic Computing. с. 154—161. doi:10.1109/ICSC.2012.55. ISBN .
- Microsoft. distilled-sentence-embedding. GitHub.
- Google. universal-sentence-encoder. TensorFlow Hub. Процитовано 6 жовтня 2018.
- Ionescu, Radu Tudor; Butnaru, Andrei (2019). Vector of Locally-Aggregated Word Embeddings (VLAWE): A Novel Document-level Representation. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 363—369. doi:10.18653/v1/N19-1033.
- Marco Marelli, Stefano Menini, Marco Baroni, Luisa Bentivogli, Raffaella Bernardi, and Roberto Zamparelli. «A SICK cure for the evaluation of compositional distributional semantic models.» In LREC, pp. 216—223. 2014 .
- Subramanian, Sandeep; Trischler, Adam; Bengio, Yoshua (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. arXiv:1804.00079 [cs.CL].
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Vbudovuvannya rechen ce zbirna nazva dlya naboru metodiv obrobki prirodnoyi movi NLP de rechennya zistavlyayutsya z vektorami dijsnih chisel ZastosuvannyaBiblioteki programnogo zabezpechennya glibokogo navchannya PyTorch i TensorFlow vikoristovuyut vbudovuvannya rechen Populyarni vbudovuvannya bazuyutsya na vihidnih danih prihovanogo sharu modelej transformatoriv takih yak BERT Alternativnim napryamkom ye ob yednannya vbudovanih sliv napriklad tih yaki povertayutsya Word2vec u vbudovani rechennya Najpryamolinijnishij pidhid prosto obchisliti serednye znachennya vektoriv sliv vidomih yak bezperervnij paket sliv CBOW Odnak takozh buli zaproponovani bilsh skladni rishennya zasnovani na vektornomu kvantuvanni sliv Odnim iz takih pidhodiv ye vektor lokalno agregovanih vbudovanih sliv VLAWE yakij prodemonstruvav pokrashennya produktivnosti v zavdannyah klasifikaciyi podalshogo tekstu OcinkaDlya testuvannya koduvan rechen zastosuvuyut yih do korpusu rechen sho mistyat kompozicijni znannya SICK yak dlya vtyaguvannya SICK E tak i dlya pov yazanosti SICK R Najkrashi rezultati otrimuyutsya zavdyaki vikoristannyu merezhi BiLSTM natrenovanoyi na Stenfordskomu korpusi visnovkiv z prirodnoyi movi SNLI Koeficiyent korelyaciyi Pirsona dlya SICK R dorivnyuye 0 885 a rezultat dlya SICK E 86 3 Neznachne pokrashennya u porivnyanni z poperednimi pokaznikami prezentovane v SICK R 0 888 i SICK E 87 8 z vikoristannyam konkatenaciyi dvonapravlenogo rekurentnogo bloku Gated Div takozhVbudovuvannya slivPosilannyaVbudovani rechennya InferSent i navchalnij kod Universalnij koduvalnik rechen Vivchennya rozpodilenih predstavlen rechen zagalnogo priznachennya za dopomogoyu shirokomasshtabnogo bagatozadachnogo navchannyaPrimitkiPaper Summary Evaluation of sentence embeddings in downstream and linguistic probing tasks nedostupne posilannya The Current Best of Universal Word Embeddings and Sentence Embeddings Sanjeev Arora Yingyu Liang and Tengyu Ma A simple but tough to beat baseline for sentence embeddings 2016 openreview SyK00v5xx Trifan Mircea Ionescu Bogdan Gadea Cristian Ionescu Dan 2015 A graph digital signal processing method for semantic analysis 2015 IEEE 10th Jubilee International Symposium on Applied Computational Intelligence and Informatics s 187 192 doi 10 1109 SACI 2015 7208196 ISBN 978 1 4799 9911 8 Basile Pierpaolo Caputo Annalina Semeraro Giovanni 2012 A Study on Compositional Semantics of Words in Distributional Spaces 2012 IEEE Sixth International Conference on Semantic Computing s 154 161 doi 10 1109 ICSC 2012 55 ISBN 978 1 4673 4433 3 Microsoft distilled sentence embedding GitHub Google universal sentence encoder TensorFlow Hub Procitovano 6 zhovtnya 2018 Ionescu Radu Tudor Butnaru Andrei 2019 Vector of Locally Aggregated Word Embeddings VLAWE A Novel Document level Representation Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics Human Language Technologies Volume 1 Long and Short Papers Minneapolis Minnesota Association for Computational Linguistics 363 369 doi 10 18653 v1 N19 1033 Marco Marelli Stefano Menini Marco Baroni Luisa Bentivogli Raffaella Bernardi and Roberto Zamparelli A SICK cure for the evaluation of compositional distributional semantic models In LREC pp 216 223 2014 Subramanian Sandeep Trischler Adam Bengio Yoshua 2018 Learning General Purpose Distributed Sentence Representations via Large Scale Multi task Learning arXiv 1804 00079 cs CL