Статистична моде́ль мо́ви (англ. language model) — це розподіл імовірності над послідовностями слів. Заданій такій послідовності, скажімо, довжини m, вона призначує ймовірність усієї цієї послідовності.
Модель мови забезпечує контекст для розрізнювання слів та фраз, які звучать схоже. Наприклад, в американській англійській фрази «recognize speech» (розпізнавати мовлення) та «wreck a nice beach» (вбити гарний пляж) звучать схоже, але означають різні речі.
У побудові моделей мов основною проблемою є розрідженість даних. Більшість можливих послідовностей слів під час тренування не спостерігаються. Одним з розв'язків цієї проблеми є припустити, що ймовірність слова залежить лише від попередніх n слів. Це є відомим як n-грамна модель, або уніграмна модель, коли n = 1. Уніграмна модель є також відомою як модель «торба слів».
Оцінювання відносної правдоподібності різних фраз є корисним у багатьох застосуваннях обробки природної мови, особливо в тих, що породжують текст як вихід. Моделювання мов використовують у розпізнаванні мовлення,машиннім перекладі,розмічуванні частин мови, синтаксичнім аналізі,оптичнім розпізнаванні символів, розпізнаванні рукописного введення,інформаційнім пошуку та інших застосуваннях.
У розпізнаванні мовлення звуки зіставляють з послідовностями слів. Неоднозначності розв'язувати легше, коли свідчення від моделі мови поєднують з моделлю вимови та [en].
Моделі мови використовують в інформаційнім пошуку в [en]. Там окрему модель мови пов'язують з кожним документом сукупності. Документи ранжують на основі ймовірності запиту Q в моделі мови документа : . Для цього зазвичай використовують уніграмну модель.
Типи моделей
Уніграмна
Уніграмну модель (англ. unigram model) можливо розглядати як комбінацію декількох одностанових скінченних автоматів. Вона розділює ймовірності різних лексем (англ. term) у контексті, наприклад, з
до
У цій моделі ймовірність кожного зі слів залежить лише від ймовірності цього слова в документі, тож як вузли ми маємо лише одностановий скінченний автомат. Сам цей автомат має розподіл імовірності над усім словником цієї моделі, що підсумовується до 1. Далі наведено ілюстрацію уніграмної моделі документа.
Лексеми | Ймовірність у документі |
---|---|
a | 0.1 |
world | 0.2 |
likes | 0.05 |
we | 0.05 |
share | 0.3 |
… | … |
Ймовірність, яку формують для конкретного запиту (англ. query), обчислюють як
Різні документи мають уніграмні моделі з різними ймовірностями влучання для слів у них. Розподіли ймовірностей з різних документів використовують для формування ймовірностей влучання для кожного запиту. Документи може бути ранжовано для запиту відповідно до цих імовірностей. Приклад уніграмних моделей двох документів:
Лексеми | Ймовірність у документі 1 | Ймовірність у документі 2 |
---|---|---|
a | 0.1 | 0.3 |
world | 0.2 | 0.1 |
likes | 0.05 | 0.03 |
we | 0.05 | 0.02 |
share | 0.3 | 0.2 |
… | … | … |
У контексті інформаційного пошуку уніграмні моделі мови часто згладжують, щоби уникати випадків, коли P(лексема) = 0. Одним з поширених підходів є формувати модель максимальної правдоподібності для всієї сукупності, й лінійно інтерполювати цю модель сукупності з моделлю максимальної правдоподібності для кожного з документів, щоби згладити її.
n-грамна
У n-грамній моделі (англ. n-gram model) ймовірність спостерігання речення наближують як
Виходять з того, що ймовірність спостерігання i-того слова wi в контексті історії попередніх i − 1 слів може бути наближено ймовірністю спостерігання його у скороченій історії контексту з попередніх n − 1 слів (марковська властивість n-того порядку).
Цю умовну ймовірність можливо обчислювати з частотних кількостей n-грамної моделі:
Терміни бігра́мна (англ. bigram) та тригра́мна (англ. trigram) мовні моделі позначують n-грамні моделі з n = 2 та n = 3 відповідно.
Як правило, ймовірності n-грамних моделей не виводять із частотних кількостей напряму, оскільки моделі, що виводять таким чином, мають серйозні проблеми, коли вони стикаються з будь-якими не баченими раніше явно n-грамами. Натомість необхідним є згладжування якогось вигляду, що призначує якусь частину загальної маси ймовірності небаченим словам або n-грамам. Використовують різні методи, від згладжування «плюс один» (призначування небаченим n-грамам кількості 1, як неінформативного апріорного), і до витонченіших моделей, таких як [en] та [en].
Двоспрямована
Двоспрямовані представлення (англ. bidirectional representations) обумовлюються як попереднім, так і наступним контекстом (наприклад, словами) в усіх шарах.
Приклад
У біграмній (n = 2) моделі мови ймовірність речення «I saw the red house» наближують як
тоді як у триграмній (n = 3) моделі мови цим наближенням є
Зауважте, що контекст перших n – 1 n-грамів заповнено маркерами початку речення, які зазвичай позначують через <s>.
Крім того, без маркера кінця речення ймовірність неграматичної послідовності «*I saw the» буде завжди вищою за ймовірність довшого речення «I saw the red house».
Експоненційна
[en] моделі мови (англ. maximum entropy language models) кодують взаємозв'язок між словом та n-грамною історією із застосуванням функцій ознак. Цим рівнянням є
- ,
де є [en], є вектором параметрів, а є функцією ознак. У найпростішому випадку функція ознак є просто індикатором наявності певного n-граму. Корисно використовувати апріорне на , або регуляризацію якогось вигляду.
Іншим прикладом експоненційної моделі мови є логарифмічно-білінійна модель.
Нейромережна
Нейромережні моделі мов (англ. neural language models, або неперервно-просторові моделі мови, англ. continuous space language models) щоби робити свої передбачування використовують неперервні представлення або вкладення слів. Ці моделі використовують нейронні мережі.
Неперервно-просторові вкладення допомагають пом'якшувати прокляття розмірності в моделюванні мов: що на більших і більших текстах тренуються моделі мов, то дедалі більшим стає число унікальних слів (словник). Число можливих послідовностей слів зростає експоненційно з розміром словника, спричинюючи проблему розрідженості даних через експоненційно велику кількість послідовностей. Таким чином, для належного оцінювання ймовірностей потрібні статистики. Нейронні мережі уникають цієї проблеми, представляючи слова розподіленим чином, як нелінійні комбінації ваг у нейронній мережі. Альтернативним описом є те, що нейронна мережа наближує функцію мови. Нейронна мережа може мати архітектуру прямого поширення або рекурентну, і тоді як перша є простішою, остання є поширенішою.[][]
Як правило, нейромережні моделі мов будують та тренують як імовірнісні класифікатори, що вчаться передбачувати розподіл імовірності
- .
Тобто, мережа тренується передбачувати розподіл імовірності над словником за якогось заданого лінгвістичного контексту. Це здійснюють застосуванням стандартних алгоритмів тренування нейронних мереж, таких як стохастичний градієнтний спуск зі зворотним поширенням. Контекст може бути вікном попередніх слів фіксованої ширини, так, що мережа передбачує
з вектору ознак, що представляє попередні k слів. Іншим варіантом є використовувати як ознаки «майбутні» слова, так само як і «минулі», так, що оцінюваною ймовірністю є
- .
Це називають моделлю торби слів. Коли вектори ознак для слів контексту поєднують неперервною операцією, цю модель називають архітектурою неперервної торби слів (НТС, англ. continuous bag-of-words, CBOW).
Третім варіантом, який тренується повільніше за НТС, але працює дещо краще, є обернути попередню задачу, і зробити так, щоби нейронна мережа вчилася контексту за заданого слова. Формальніше, за заданої послідовності слів максимізують усереднену логарифмічну ймовірність
- ,
де k, розмір тренованого контексту, може бути функцією від центрального слова . Це називають пропуск-грамною (англ. skip-gram) моделлю мови. Моделі торби слів та пропуск-грамна є основою програми word2vec.
Замість використовувати нейромережні моделі мови, щоби виробляти фактичні ймовірності, поширеним є натомість використання розподіленого представлення, закодованого в «прихованих» шарах мережі, як представлення слів. Тоді кожне слово відображують в n-вимірний дійсний вектор, званий вкладенням слова, де n є розміром шару безпосередньо перед шаром виходу. Представлення в пропуск-грамних моделях мають таку виразну характеристику, що вони моделюють семантичні відношення між словами як лінійні комбінації, вловлюючи свого роду [en]. Наприклад, у деяких таких моделях, якщо v є функцією, що відображує слово w до його n-вимірного векторного представлення, то
- ,
де ≈ роблять точним, ставлячи умову, що його права частина мусить бути найближчим сусідом значення лівої частини.
Інші
Позиційна модель мови (англ. positional language model) оцінює ймовірність трапляння заданих слів близько в тексті одне до одного, не обов'язково безпосередньо суміжними. Подібним чином, моделі концепції торби слів використовують семантику, пов'язану з багатослівними виразами, такими як «buy_christmas_present», навіть якщо вони використовуються в інформаційно насичених реченнях на кшталт «today I bought a lot of very nice Christmas presents».
Незважаючи на обмежений успіх використання нейронних мереж, автори визнають необхідність інших методів при моделюванні мов жестів.
Еталони
Для оцінювання систем обробки мови було розроблено різноманітні наборі даних. До них належать:
- Corpus of Linguistic Acceptability
- GLUE benchmark
- Microsoft Research Paraphrase Corpus
- Multi-Genre Natural Language Inference
- Question Natural Language Inference
- Quora Question Pairs
- Recognizing Textual Entailment
- Semantic Textual Similarity Benchmark
- SQuAD question answering Test
- Stanford Sentiment [en]
- Winograd NLI
Див. також
- Статистична модель
- [en]
- [en]
- [en]
- Трансформер
- BERT
- GPT
- GPT-3
Виноски
- Див. Закон Гіпса.
Примітки
- Kuhn, Roland, and Renato De Mori. "A cache-based natural language model for speech recognition." IEEE transactions on pattern analysis and machine intelligence 12.6 (1990): 570-583. (англ.)
- Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation [ 15 серпня 2020 у Wayback Machine.]." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013. (англ.)
- Pham, Vu, et al. "Dropout improves recurrent neural networks for handwriting recognition [ 11 листопада 2020 у Wayback Machine.]." 2014 14th International Conference on Frontiers in Handwriting Recognition. IEEE, 2014. (англ.)
- Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze: An Introduction to Information Retrieval, pages 237–240. Cambridge University Press, 2009 (англ.)
- Buttcher, Clarke, and Cormack. Information Retrieval: Implementing and Evaluating Search Engines. pg. 289–291. MIT Press. (англ.)
- Craig Trim, What is Language Modeling? [ 5 грудня 2020 у Wayback Machine.], April 26th, 2013. (англ.)
- Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (10 жовтня 2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs.CL]. (англ.)
- Karpathy, Andrej. . Архів оригіналу за 1 листопада 2020. Процитовано 1 листопада 2020. (англ.)
- Bengio, Yoshua (2008). . Scholarpedia. Т. 3, № 1. с. 3881. Bibcode:2008SchpJ...3.3881B. doi:10.4249/scholarpedia.3881. Архів оригіналу за 26 жовтня 2020. Процитовано 1 листопада 2020. (англ.)
- Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). Efficient estimation of word representations in vector space. arXiv:1301.3781 [cs.CL]. (англ.)
- Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado irst4=Greg S.; Dean, Jeff (2013). (PDF). [en]. с. 3111—3119. Архів оригіналу (PDF) за 29 жовтня 2020. Процитовано 1 листопада 2020. (англ.)
- Harris, Derrick (16 серпня 2013). . Gigaom. Архів оригіналу за 11 листопада 2020. Процитовано 1 листопада 2020. (англ.)
- Lv, Yuanhua; Zhai, ChengXiang (2009). (PDF). Proceedings. 32nd international ACM SIGIR conference on Research and development in information retrieval (SIGIR). Архів оригіналу (PDF) за 24 листопада 2020. Процитовано 1 листопада 2020. (англ.)
- Cambria, Erik; Hussain, Amir (28 липня 2012). Sentic Computing: Techniques, Tools, and Applications (англ.). Springer Netherlands. ISBN . (англ.)
- Mocialov, Boris; Hastie, Helen; Turner, Graham (August 2018). . Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018). Архів оригіналу за 5 грудня 2020. Процитовано 14 березня 2020. (англ.)
- . nyu-mll.github.io. Архів оригіналу за 7 грудня 2020. Процитовано 25 лютого 2019. (англ.)
- . gluebenchmark.com (англ.). Архів оригіналу за 4 листопада 2020. Процитовано 25 лютого 2019. (англ.)
- . Microsoft Download Center (en-us) . Архів оригіналу за 25 жовтня 2020. Процитовано 25 лютого 2019. (англ.)
- Aghaebrahimian, Ahmad (2017), Quora Question Answer Dataset, Text, Speech, and Dialogue, Lecture Notes in Computer Science, т. 10415, Springer International Publishing, с. 66—73, doi:10.1007/978-3-319-64206-2_8, ISBN (англ.)
- Sammons, V.G.Vinod Vydiswaran, Dan Roth, Mark; Vydiswaran, V.G.; Roth, Dan. (PDF). Архів оригіналу (PDF) за 9 серпня 2017. Процитовано 24 лютого 2019. (англ.)
- . rajpurkar.github.io. Архів оригіналу за 30 жовтня 2020. Процитовано 25 лютого 2019. (англ.)
- . nlp.stanford.edu. Архів оригіналу за 27 жовтня 2020. Процитовано 25 лютого 2019. (англ.)
Джерела
- J M Ponte and W B Croft (1998). A Language Modeling Approach to Information Retrieval. Research and Development in Information Retrieval. с. 275—281. CiteSeerX 10.1.1.117.4237. (англ.)
- F Song and W B Croft (1999). A General Language Model for Information Retrieval. Research and Development in Information Retrieval. с. 279—280. CiteSeerX 10.1.1.21.6467. (англ.)
- Chen, Stanley; Joshua Goodman (1998). An Empirical Study of Smoothing Techniques for Language Modeling (Технічний звіт). Harvard University. CiteSeerX 10.1.1.131.5458. (англ.)
Посилання
Програмне забезпечення
- BERT на GitHub — Bidirectional Encoder Representations from Transformers
- — вільний інструментарій для моделей мови на нейронних мережах прямого поширення
- DALM на GitHub — швидке вільне програмне забезпечення для запитів до моделей мови
- Generative Pre-trained Transformer [ 1 березня 2019 у Wayback Machine.]
- IRSTLM [ 19 січня 2022 у Wayback Machine.] — вільне програмне забезпечення для моделювання мов
- Kylm [ 29 листопада 2020 у Wayback Machine.] (Kyoto Language Modeling Toolkit) — вільний інструментарій моделювання мов мовою Java
- KenLM [ 10 листопада 2020 у Wayback Machine.] — швидке вільне програмне забезпечення для моделювання мов
- LMSharp на GitHub — вільний інструментарій моделювання мов для n-грамних моделей зі [en] та рекурентно-нейромережних моделей
- MITLM на GitHub — інструментарій моделювання мов МТІ. Вільне програмне забезпечення
- NPLM [ 6 березня 2021 у Wayback Machine.] — вільний інструментарій для моделей мови на нейронних мережах прямого поширення
- OpenGrm NGram library [ 31 жовтня 2020 у Wayback Machine.] — вільне програмне забезпечення для моделювання мов. Побудовано на OpenFst.
- OxLM на GitHub — вільний інструментарій для моделей мови на нейронних мережах прямого поширення
- Positional Language Model [ 8 липня 2019 у Wayback Machine.]
- RandLM [ 20 січня 2022 у Wayback Machine.] — вільне програмне забезпечення для увипадковленого моделювання мов
- — вільний інструментарій для рекурентно-нейромережних моделей мови
- SRILM [ 21 грудня 2020 у Wayback Machine.] — власницьке програмне забезпечення для моделювання мов
- VariKN [ 23 жовтня 2020 у Wayback Machine.] — вільне програмне забезпечення для створювання, вирощування та обрізання n-грамних моделей зі згладжуванням Кнесера — Нея
- Моделі мови, натреновані на даних newswire [ 18 травня 2021 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Statistichna mode l mo vi angl language model ce rozpodil imovirnosti nad poslidovnostyami sliv Zadanij takij poslidovnosti skazhimo dovzhini m vona priznachuye jmovirnist P w1 wm displaystyle P w 1 ldots w m usiyeyi ciyeyi poslidovnosti Model movi zabezpechuye kontekst dlya rozriznyuvannya sliv ta fraz yaki zvuchat shozhe Napriklad v amerikanskij anglijskij frazi recognize speech rozpiznavati movlennya ta wreck a nice beach vbiti garnij plyazh zvuchat shozhe ale oznachayut rizni rechi U pobudovi modelej mov osnovnoyu problemoyu ye rozridzhenist danih Bilshist mozhlivih poslidovnostej sliv pid chas trenuvannya ne sposterigayutsya Odnim z rozv yazkiv ciyeyi problemi ye pripustiti sho jmovirnist slova zalezhit lishe vid poperednih n sliv Ce ye vidomim yak n gramna model abo unigramna model koli n 1 Unigramna model ye takozh vidomoyu yak model torba sliv Ocinyuvannya vidnosnoyi pravdopodibnosti riznih fraz ye korisnim u bagatoh zastosuvannyah obrobki prirodnoyi movi osoblivo v tih sho porodzhuyut tekst yak vihid Modelyuvannya mov vikoristovuyut u rozpiznavanni movlennya mashinnim perekladi rozmichuvanni chastin movi sintaksichnim analizi optichnim rozpiznavanni simvoliv rozpiznavanni rukopisnogo vvedennya informacijnim poshuku ta inshih zastosuvannyah U rozpiznavanni movlennya zvuki zistavlyayut z poslidovnostyami sliv Neodnoznachnosti rozv yazuvati legshe koli svidchennya vid modeli movi poyednuyut z modellyu vimovi ta en Modeli movi vikoristovuyut v informacijnim poshuku v en Tam okremu model movi pov yazuyut z kozhnim dokumentom sukupnosti Dokumenti ranzhuyut na osnovi jmovirnosti zapitu Q v modeli movi dokumenta Md displaystyle M d P Q Md displaystyle P Q mid M d Dlya cogo zazvichaj vikoristovuyut unigramnu model Tipi modelejUnigramna Unigramnu model angl unigram model mozhlivo rozglyadati yak kombinaciyu dekilkoh odnostanovih skinchennih avtomativ Vona rozdilyuye jmovirnosti riznih leksem angl term u konteksti napriklad z P t1t2t3 P t1 P t2 t1 P t3 t1t2 displaystyle P t 1 t 2 t 3 P t 1 P t 2 mid t 1 P t 3 mid t 1 t 2 do Puni t1t2t3 P t1 P t2 P t3 displaystyle P text uni t 1 t 2 t 3 P t 1 P t 2 P t 3 U cij modeli jmovirnist kozhnogo zi sliv zalezhit lishe vid jmovirnosti cogo slova v dokumenti tozh yak vuzli mi mayemo lishe odnostanovij skinchennij avtomat Sam cej avtomat maye rozpodil imovirnosti nad usim slovnikom ciyeyi modeli sho pidsumovuyetsya do 1 Dali navedeno ilyustraciyu unigramnoyi modeli dokumenta Leksemi Jmovirnist u dokumentia 0 1world 0 2likes 0 05we 0 05share 0 3 term in docP term 1 displaystyle sum text term in doc P text term 1 Jmovirnist yaku formuyut dlya konkretnogo zapitu angl query obchislyuyut yak P query term in queryP term displaystyle P text query prod text term in query P text term Rizni dokumenti mayut unigramni modeli z riznimi jmovirnostyami vluchannya dlya sliv u nih Rozpodili jmovirnostej z riznih dokumentiv vikoristovuyut dlya formuvannya jmovirnostej vluchannya dlya kozhnogo zapitu Dokumenti mozhe buti ranzhovano dlya zapitu vidpovidno do cih imovirnostej Priklad unigramnih modelej dvoh dokumentiv Leksemi Jmovirnist u dokumenti 1 Jmovirnist u dokumenti 2a 0 1 0 3world 0 2 0 1likes 0 05 0 03we 0 05 0 02share 0 3 0 2 U konteksti informacijnogo poshuku unigramni modeli movi chasto zgladzhuyut shobi unikati vipadkiv koli P leksema 0 Odnim z poshirenih pidhodiv ye formuvati model maksimalnoyi pravdopodibnosti dlya vsiyeyi sukupnosti j linijno interpolyuvati cyu model sukupnosti z modellyu maksimalnoyi pravdopodibnosti dlya kozhnogo z dokumentiv shobi zgladiti yiyi n gramna Dokladnishe n gram U n gramnij modeli angl n gram model jmovirnist P w1 wm displaystyle P w 1 ldots w m sposterigannya rechennya w1 wm displaystyle w 1 ldots w m nablizhuyut yak P w1 wm i 1mP wi w1 wi 1 i 1mP wi wi n 1 wi 1 displaystyle P w 1 ldots w m prod i 1 m P w i mid w 1 ldots w i 1 approx prod i 1 m P w i mid w i n 1 ldots w i 1 Vihodyat z togo sho jmovirnist sposterigannya i togo slova wi v konteksti istoriyi poperednih i 1 sliv mozhe buti nablizheno jmovirnistyu sposterigannya jogo u skorochenij istoriyi kontekstu z poperednih n 1 sliv markovska vlastivist n togo poryadku Cyu umovnu jmovirnist mozhlivo obchislyuvati z chastotnih kilkostej n gramnoyi modeli P wi wi n 1 wi 1 count wi n 1 wi 1 wi count wi n 1 wi 1 displaystyle P w i mid w i n 1 ldots w i 1 frac mathrm count w i n 1 ldots w i 1 w i mathrm count w i n 1 ldots w i 1 Termini bigra mna angl bigram ta trigra mna angl trigram movni modeli poznachuyut n gramni modeli z n 2 ta n 3 vidpovidno Yak pravilo jmovirnosti n gramnih modelej ne vivodyat iz chastotnih kilkostej napryamu oskilki modeli sho vivodyat takim chinom mayut serjozni problemi koli voni stikayutsya z bud yakimi ne bachenimi ranishe yavno n gramami Natomist neobhidnim ye zgladzhuvannya yakogos viglyadu sho priznachuye yakus chastinu zagalnoyi masi jmovirnosti nebachenim slovam abo n gramam Vikoristovuyut rizni metodi vid zgladzhuvannya plyus odin priznachuvannya nebachenim n gramam kilkosti 1 yak neinformativnogo apriornogo i do vitonchenishih modelej takih yak en ta en Dvospryamovana Dvospryamovani predstavlennya angl bidirectional representations obumovlyuyutsya yak poperednim tak i nastupnim kontekstom napriklad slovami v usih sharah Priklad U bigramnij n 2 modeli movi jmovirnist rechennya I saw the red house nablizhuyut yak P I saw the red house P I s P saw I P the saw P red the P house red P s house displaystyle P text I saw the red house approx P text I mid langle s rangle P text saw mid text I P text the mid text saw P text red mid text the P text house mid text red P langle s rangle mid text house todi yak u trigramnij n 3 modeli movi cim nablizhennyam ye P I saw the red house P I s s P saw s I P the I saw P red saw the P house the red P s red house displaystyle P text I saw the red house approx P text I mid langle s rangle langle s rangle P text saw mid langle s rangle I P text the mid text I saw P text red mid text saw the P text house mid text the red P langle s rangle mid text red house Zauvazhte sho kontekst pershih n 1 n gramiv zapovneno markerami pochatku rechennya yaki zazvichaj poznachuyut cherez lt s gt Krim togo bez markera kincya rechennya jmovirnist negramatichnoyi poslidovnosti I saw the bude zavzhdi vishoyu za jmovirnist dovshogo rechennya I saw the red house Eksponencijna en modeli movi angl maximum entropy language models koduyut vzayemozv yazok mizh slovom ta n gramnoyu istoriyeyu iz zastosuvannyam funkcij oznak Cim rivnyannyam ye P wm w1 wm 1 1Z w1 wm 1 exp aTf w1 wm displaystyle P w m w 1 ldots w m 1 frac 1 Z w 1 ldots w m 1 exp a T f w 1 ldots w m de Z w1 wm 1 displaystyle Z w 1 ldots w m 1 ye en a displaystyle a ye vektorom parametriv a f w1 wm displaystyle f w 1 ldots w m ye funkciyeyu oznak U najprostishomu vipadku funkciya oznak ye prosto indikatorom nayavnosti pevnogo n gramu Korisno vikoristovuvati apriorne na a displaystyle a abo regulyarizaciyu yakogos viglyadu Inshim prikladom eksponencijnoyi modeli movi ye logarifmichno bilinijna model Nejromerezhna Nejromerezhni modeli mov angl neural language models abo neperervno prostorovi modeli movi angl continuous space language models shobi robiti svoyi peredbachuvannya vikoristovuyut neperervni predstavlennya abo vkladennya sliv Ci modeli vikoristovuyut nejronni merezhi Neperervno prostorovi vkladennya dopomagayut pom yakshuvati proklyattya rozmirnosti v modelyuvanni mov sho na bilshih i bilshih tekstah trenuyutsya modeli mov to dedali bilshim staye chislo unikalnih sliv slovnik Chislo mozhlivih poslidovnostej sliv zrostaye eksponencijno z rozmirom slovnika sprichinyuyuchi problemu rozridzhenosti danih cherez eksponencijno veliku kilkist poslidovnostej Takim chinom dlya nalezhnogo ocinyuvannya jmovirnostej potribni statistiki Nejronni merezhi unikayut ciyeyi problemi predstavlyayuchi slova rozpodilenim chinom yak nelinijni kombinaciyi vag u nejronnij merezhi Alternativnim opisom ye te sho nejronna merezha nablizhuye funkciyu movi Nejronna merezha mozhe mati arhitekturu pryamogo poshirennya abo rekurentnu i todi yak persha ye prostishoyu ostannya ye poshirenishoyu dzherelo Yak pravilo nejromerezhni modeli mov buduyut ta trenuyut yak imovirnisni klasifikatori sho vchatsya peredbachuvati rozpodil imovirnosti P wt context t V displaystyle P w t mathrm context forall t in V Tobto merezha trenuyetsya peredbachuvati rozpodil imovirnosti nad slovnikom za yakogos zadanogo lingvistichnogo kontekstu Ce zdijsnyuyut zastosuvannyam standartnih algoritmiv trenuvannya nejronnih merezh takih yak stohastichnij gradiyentnij spusk zi zvorotnim poshirennyam Kontekst mozhe buti viknom poperednih sliv fiksovanoyi shirini tak sho merezha peredbachuye P wt wt k wt 1 displaystyle P w t w t k dots w t 1 z vektoru oznak sho predstavlyaye poperedni k sliv Inshim variantom ye vikoristovuvati yak oznaki majbutni slova tak samo yak i minuli tak sho ocinyuvanoyu jmovirnistyu ye P wt wt k wt 1 wt 1 wt k displaystyle P w t w t k dots w t 1 w t 1 dots w t k Ce nazivayut modellyu torbi sliv Koli vektori oznak dlya sliv kontekstu poyednuyut neperervnoyu operaciyeyu cyu model nazivayut arhitekturoyu neperervnoyi torbi sliv NTS angl continuous bag of words CBOW Tretim variantom yakij trenuyetsya povilnishe za NTS ale pracyuye desho krashe ye obernuti poperednyu zadachu i zrobiti tak shobi nejronna merezha vchilasya kontekstu za zadanogo slova Formalnishe za zadanoyi poslidovnosti sliv w1 w2 w3 wT displaystyle w 1 w 2 w 3 dots w T maksimizuyut userednenu logarifmichnu jmovirnist 1T t 1T k j k j 0log P wt j wt displaystyle frac 1 T sum t 1 T sum k leq j leq k j neq 0 log P w t j w t de k rozmir trenovanogo kontekstu mozhe buti funkciyeyu vid centralnogo slova wt displaystyle w t Ce nazivayut propusk gramnoyu angl skip gram modellyu movi Modeli torbi sliv ta propusk gramna ye osnovoyu programi word2vec Zamist vikoristovuvati nejromerezhni modeli movi shobi viroblyati faktichni jmovirnosti poshirenim ye natomist vikoristannya rozpodilenogo predstavlennya zakodovanogo v prihovanih sharah merezhi yak predstavlennya sliv Todi kozhne slovo vidobrazhuyut v n vimirnij dijsnij vektor zvanij vkladennyam slova de n ye rozmirom sharu bezposeredno pered sharom vihodu Predstavlennya v propusk gramnih modelyah mayut taku viraznu harakteristiku sho voni modelyuyut semantichni vidnoshennya mizh slovami yak linijni kombinaciyi vlovlyuyuchi svogo rodu en Napriklad u deyakih takih modelyah yaksho v ye funkciyeyu sho vidobrazhuye slovo w do jogo n vimirnogo vektornogo predstavlennya to v king v male v female v queen displaystyle v mathrm king v mathrm male v mathrm female approx v mathrm queen de roblyat tochnim stavlyachi umovu sho jogo prava chastina musit buti najblizhchim susidom znachennya livoyi chastini Inshi Pozicijna model movi angl positional language model ocinyuye jmovirnist traplyannya zadanih sliv blizko v teksti odne do odnogo ne obov yazkovo bezposeredno sumizhnimi Podibnim chinom modeli koncepciyi torbi sliv vikoristovuyut semantiku pov yazanu z bagatoslivnimi virazami takimi yak buy christmas present navit yaksho voni vikoristovuyutsya v informacijno nasichenih rechennyah na kshtalt today I bought a lot of very nice Christmas presents Nezvazhayuchi na obmezhenij uspih vikoristannya nejronnih merezh avtori viznayut neobhidnist inshih metodiv pri modelyuvanni mov zhestiv EtaloniDlya ocinyuvannya sistem obrobki movi bulo rozrobleno riznomanitni nabori danih Do nih nalezhat Corpus of Linguistic Acceptability GLUE benchmark Microsoft Research Paraphrase Corpus Multi Genre Natural Language Inference Question Natural Language Inference Quora Question Pairs Recognizing Textual Entailment Semantic Textual Similarity Benchmark SQuAD question answering Test Stanford Sentiment en Winograd NLIDiv takozhStatistichna model en en en Transformer BERT GPT GPT 3VinoskiDiv Zakon Gipsa PrimitkiKuhn Roland and Renato De Mori A cache based natural language model for speech recognition IEEE transactions on pattern analysis and machine intelligence 12 6 1990 570 583 angl Andreas Jacob Andreas Vlachos and Stephen Clark Semantic parsing as machine translation 15 serpnya 2020 u Wayback Machine Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics Volume 2 Short Papers 2013 angl Pham Vu et al Dropout improves recurrent neural networks for handwriting recognition 11 listopada 2020 u Wayback Machine 2014 14th International Conference on Frontiers in Handwriting Recognition IEEE 2014 angl Christopher D Manning Prabhakar Raghavan Hinrich Schutze An Introduction to Information Retrieval pages 237 240 Cambridge University Press 2009 angl Buttcher Clarke and Cormack Information Retrieval Implementing and Evaluating Search Engines pg 289 291 MIT Press angl Craig Trim What is Language Modeling 5 grudnya 2020 u Wayback Machine April 26th 2013 angl Devlin Jacob Chang Ming Wei Lee Kenton Toutanova Kristina 10 zhovtnya 2018 BERT Pre training of Deep Bidirectional Transformers for Language Understanding arXiv 1810 04805 cs CL angl Karpathy Andrej Arhiv originalu za 1 listopada 2020 Procitovano 1 listopada 2020 angl Bengio Yoshua 2008 Scholarpedia T 3 1 s 3881 Bibcode 2008SchpJ 3 3881B doi 10 4249 scholarpedia 3881 Arhiv originalu za 26 zhovtnya 2020 Procitovano 1 listopada 2020 angl Mikolov Tomas Chen Kai Corrado Greg Dean Jeffrey 2013 Efficient estimation of word representations in vector space arXiv 1301 3781 cs CL angl Mikolov Tomas Sutskever Ilya Chen Kai Corrado irst4 Greg S Dean Jeff 2013 PDF en s 3111 3119 Arhiv originalu PDF za 29 zhovtnya 2020 Procitovano 1 listopada 2020 angl Harris Derrick 16 serpnya 2013 Gigaom Arhiv originalu za 11 listopada 2020 Procitovano 1 listopada 2020 angl Lv Yuanhua Zhai ChengXiang 2009 PDF Proceedings 32nd international ACM SIGIR conference on Research and development in information retrieval SIGIR Arhiv originalu PDF za 24 listopada 2020 Procitovano 1 listopada 2020 angl Cambria Erik Hussain Amir 28 lipnya 2012 Sentic Computing Techniques Tools and Applications angl Springer Netherlands ISBN 978 94 007 5069 2 angl Mocialov Boris Hastie Helen Turner Graham August 2018 Proceedings of the Fifth Workshop on NLP for Similar Languages Varieties and Dialects VarDial 2018 Arhiv originalu za 5 grudnya 2020 Procitovano 14 bereznya 2020 angl nyu mll github io Arhiv originalu za 7 grudnya 2020 Procitovano 25 lyutogo 2019 angl gluebenchmark com angl Arhiv originalu za 4 listopada 2020 Procitovano 25 lyutogo 2019 angl Microsoft Download Center en us Arhiv originalu za 25 zhovtnya 2020 Procitovano 25 lyutogo 2019 angl Aghaebrahimian Ahmad 2017 Quora Question Answer Dataset Text Speech and Dialogue Lecture Notes in Computer Science t 10415 Springer International Publishing s 66 73 doi 10 1007 978 3 319 64206 2 8 ISBN 9783319642055 angl Sammons V G Vinod Vydiswaran Dan Roth Mark Vydiswaran V G Roth Dan PDF Arhiv originalu PDF za 9 serpnya 2017 Procitovano 24 lyutogo 2019 angl rajpurkar github io Arhiv originalu za 30 zhovtnya 2020 Procitovano 25 lyutogo 2019 angl nlp stanford edu Arhiv originalu za 27 zhovtnya 2020 Procitovano 25 lyutogo 2019 angl DzherelaJ M Ponte and W B Croft 1998 A Language Modeling Approach to Information Retrieval Research and Development in Information Retrieval s 275 281 CiteSeerX 10 1 1 117 4237 angl F Song and W B Croft 1999 A General Language Model for Information Retrieval Research and Development in Information Retrieval s 279 280 CiteSeerX 10 1 1 21 6467 angl Chen Stanley Joshua Goodman 1998 An Empirical Study of Smoothing Techniques for Language Modeling Tehnichnij zvit Harvard University CiteSeerX 10 1 1 131 5458 angl PosilannyaProgramne zabezpechennya BERT na GitHub Bidirectional Encoder Representations from Transformers vilnij instrumentarij dlya modelej movi na nejronnih merezhah pryamogo poshirennya DALM na GitHub shvidke vilne programne zabezpechennya dlya zapitiv do modelej movi Generative Pre trained Transformer 1 bereznya 2019 u Wayback Machine IRSTLM 19 sichnya 2022 u Wayback Machine vilne programne zabezpechennya dlya modelyuvannya mov Kylm 29 listopada 2020 u Wayback Machine Kyoto Language Modeling Toolkit vilnij instrumentarij modelyuvannya mov movoyu Java KenLM 10 listopada 2020 u Wayback Machine shvidke vilne programne zabezpechennya dlya modelyuvannya mov LMSharp na GitHub vilnij instrumentarij modelyuvannya mov dlya n gramnih modelej zi en ta rekurentno nejromerezhnih modelej MITLM na GitHub instrumentarij modelyuvannya mov MTI Vilne programne zabezpechennya NPLM 6 bereznya 2021 u Wayback Machine vilnij instrumentarij dlya modelej movi na nejronnih merezhah pryamogo poshirennya OpenGrm NGram library 31 zhovtnya 2020 u Wayback Machine vilne programne zabezpechennya dlya modelyuvannya mov Pobudovano na OpenFst OxLM na GitHub vilnij instrumentarij dlya modelej movi na nejronnih merezhah pryamogo poshirennya Positional Language Model 8 lipnya 2019 u Wayback Machine RandLM 20 sichnya 2022 u Wayback Machine vilne programne zabezpechennya dlya uvipadkovlenogo modelyuvannya mov vilnij instrumentarij dlya rekurentno nejromerezhnih modelej movi SRILM 21 grudnya 2020 u Wayback Machine vlasnicke programne zabezpechennya dlya modelyuvannya mov VariKN 23 zhovtnya 2020 u Wayback Machine vilne programne zabezpechennya dlya stvoryuvannya viroshuvannya ta obrizannya n gramnih modelej zi zgladzhuvannyam Knesera Neya Modeli movi natrenovani na danih newswire 18 travnya 2021 u Wayback Machine