Ідентифікація мови (англ. language identification), в методиці обробки природної мови — визначення мови. Проблема ідентифікації мови є особливим випадком категоризації тексту і вирішується з використанням статистичних методів.
Огляд
Для ідентифікації мови реалізується архітектура PPRLM (parallel phonemes recognition + language model) з паралельним підключенням фонетичних розпізнавачів, навчених декількома мовами. Фонетичне розпізнавання виконується на основі прихованих марковських моделей (ПММ) за допомогою алгоритму Вітербі.
Для прийняття рішення щодо приналежності мовного повідомлення до тієї чи іншої цільової мови реалізується підхід з класифікатором на основі методу опорних векторів (SVM — support vector machines).
Принцип роботи системи, побудованої на основі класичного PPRLM, полягає в наступному:
- в системі присутні кілька фонетичних розпізнавачів;
- кожен вхідний звуковий файл розпізнається фонетичними розпізнавачами;
- за результуючою послідовністю фонем кожного фонетичного розпізнавача рахуються міри близькості до моделі n-gramm тієї чи іншої цільової мови;
- мова з максимальною мірою близькості моделі n-gramm вважається такою, що перемогла.
У вдосконалених системах PPRLM ідентифікація мови реалізується у вигляді відкритої задачі: проводиться перевірка: «належить» / «не належить» оброблений файл цільовій мові, рішення приймається автоматично з урахуванням порога, встановленого користувачем.
До базового алгоритму додаються наступні кроки:
- на результуючу послідовність фонем кожного фонетичного розпізнавача накладається модель n-gramm тієї чи іншої "опорної" мови і рахуються міри близькості моделі n-gramm до послідовності фонем;
- повний набір мір близькості моделей n-gramm до послідовностей фонем є вхідним вектором для класифікатора SVM;
- за результатом класифікації SVM-класифікатором приймається рішення про приналежність до цільової мови за допомогою порівняння з встановленим порогом для кожної цільової мови окремо.
Звуковий файл є вимовленим цільовою мовою, якщо оцінка, що надана SVM-класифікатором, більше порога. При цьому звуковий файл може бути віднесений до однієї або декількох мов одночасно або не віднесений до жодної з них.
Ідентифікація схожих мов
Однією з найбільших проблем систем ідентифікації мов є розрізнення близькоспоріднених мов. Подібні мови, такі як болгарська та македонська або індонезійська та малайська, мають значні лексичні та структурні збіги, що ускладнює їх розрізнення системами.
У 2014 році було організовано спільне завдання DSL, яке надало набір даних (Tan et al., 2014), що містить 13 різних мов (і мовних різновидів) у шести мовних групах: Група A (боснійська, хорватська, сербська), Група B (індонезійська, малайзійська), Група C (чеська, словацька), Група D (бразильська португальська, європейська португальська), Група E (півострівна іспанська, аргентинська іспанська), Група F (американська англійська, британська англійська). Найкраща система досягла продуктивності понад 95% результатів (Goutte et al., 2014). Результати спільного завдання DSL описані в Zampieri та ін., 2014.
Див. також
Література
- Joshua Goodman. Extended Comment on Language Trees and Zipping [ 20 січня 2022 у Wayback Machine.]. arXiv: cond-mat/0202383 [cond-mat.stat-mech]
- Benedetto, D., E. Caglioti and V. Loreto. Language trees and zipping [ 20 січня 2022 у Wayback Machine.]. Physical Review Letters, 88:4 (2002), .
- Cavnar, William B. and John M. Trenkle. «N-Gram-Based Text Categorization». Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] [ 5 листопада 2013 у Wayback Machine.].
- Cilibrasi, Rudi and Paul M.B. Vitanyi. «Clustering by compression [ 20 січня 2022 у Wayback Machine.]». IEEE Transactions on Information Theory 51(4), April 2005, 1523—1545.
- Dunning, T. (1994) «Statistical Identification of Language». Technical Report MCCS 94-273, New Mexico State University, 1994.
- Goodman, Joshua. (2002) Extended comment on «Language Trees and Zipping» [ 8 лютого 2007 у Wayback Machine.]. Microsoft Research, Feb 21 2002. (This is a criticism of the data compression in favor of the Naive Bayes method.)
- Grefenstette, Gregory. (1995) Comparing two language identification schemes. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
- Poutsma, Arjen. (2001) Applying Monte Carlo techniques to language identification. SmartHaven, Amsterdam. Presented at .
- The Economist. (2002) «The elements of style: Analysing compressed data leads to impressive results in linguistics [ 17 жовтня 2009 у Wayback Machine.]»
Посилання
Бібліотеки
- : algorithm and code example of an n-gram based LID tool in Python and Scheme by Damir Cavar.
- : by Lingua-Systems; / library and Perl Extension ().
- lc4j, a language categorization Java library [ 3 березня 2014 у Wayback Machine.], by Marco Olivo.
- Microsoft Extended Linguistic Services for Windows 7 [ 12 жовтня 2016 у Wayback Machine.]: including Microsoft Language Detection.
- : including managed interfaces for the above.
- NTextCat — free Language Identification API for .NET (C#) [ 23 грудня 2017 у Wayback Machine.]: 280+ languages available out of the box. Recognizes language and encoding (UTF-8, , , etc.) of text. Mono compatible.
- jsli — pure JavaScript Language Identification library.
- cldr [ 6 березня 2014 у Wayback Machine.]-R library for Chromium-Author’s Compact Language Detection code.
- language-detection [ 23 січня 2016 у Wayback Machine.]: open-source language detection library for Java (forks: lang-guess [ 20 січня 2016 у Wayback Machine.] and language-detector [ 21 січня 2022 у Wayback Machine.]).
- cld2 [ 26 грудня 2015 у Wayback Machine.]: open-source language detection library for C++ by Google
- GuessLanguage [ 31 березня 2022 у Wayback Machine.]: open-source language detection library for javascript
- GuessLanguage [ 14 квітня 2016 у Wayback Machine.]: open-source language detection library for python
- Text LanguageDetect [ 13 березня 2022 у Wayback Machine.]: pear language detect (not maintained currently)
- datagram [ 28 вересня 2020 у Wayback Machine.]: open-source MIT JavaScript classification library. Automatically classify and recognize languages of input data. It can be used for any type of classification based on trained data.
Web-сервіси
- Language Identification Web Service [ 14 травня 2021 у Wayback Machine.]: language detection API (JSON and XML) that detects 100+ languages in texts, websites and documents
- Language Detection API [ 27 квітня 2022 у Wayback Machine.]: simple language identification API
- dataTXT-LI [ 24 червня 2021 у Wayback Machine.]: language identification RESTful API, part of dandelion dataTXT semantic API family [ 17 березня 2015 у Wayback Machine.] (named entity extraction, text similarity etc.)
- : language identification API, available as SDK and through a RESTfull API ().
- : provides a choice between ngram, nvect and smart methods.
- , available in web-based form or through API.
- : web-based language identification
- , Online identification from text or URL and API available for developers.
- What Language Is This? Online language identifier [ 18 березня 2022 у Wayback Machine.]: web-based tool written by Henrik Falck.
- Rosette Language Identifier [ 14 червня 2011 у Wayback Machine.]: product by Basis Technology.
- Language Identifier [ 20 січня 2014 у Wayback Machine.]: product by Sematext; exposes Java API and is available through REST/Webservice.
- .
- Rosoka Cloud [ 4 березня 2016 у Wayback Machine.] by IMT Holdings provides language ID, entity and relationship extraction RESTfull web services available through Amazon Web Services Marketplace.
- Semantria sentiment and text analytics API which features language detection
- : Website language identification with API, (json/XML)
- «Стэл КС» Идентификация языка [ 21 січня 2022 у Wayback Machine.]: API идентификации языка (11 языков)
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Identifikaciya movi angl language identification v metodici obrobki prirodnoyi movi viznachennya movi Problema identifikaciyi movi ye osoblivim vipadkom kategorizaciyi tekstu i virishuyetsya z vikoristannyam statistichnih metodiv OglyadDlya identifikaciyi movi realizuyetsya arhitektura PPRLM parallel phonemes recognition language model z paralelnim pidklyuchennyam fonetichnih rozpiznavachiv navchenih dekilkoma movami Fonetichne rozpiznavannya vikonuyetsya na osnovi prihovanih markovskih modelej PMM za dopomogoyu algoritmu Viterbi Dlya prijnyattya rishennya shodo prinalezhnosti movnogo povidomlennya do tiyeyi chi inshoyi cilovoyi movi realizuyetsya pidhid z klasifikatorom na osnovi metodu opornih vektoriv SVM support vector machines Princip roboti sistemi pobudovanoyi na osnovi klasichnogo PPRLM polyagaye v nastupnomu v sistemi prisutni kilka fonetichnih rozpiznavachiv kozhen vhidnij zvukovij fajl rozpiznayetsya fonetichnimi rozpiznavachami za rezultuyuchoyu poslidovnistyu fonem kozhnogo fonetichnogo rozpiznavacha rahuyutsya miri blizkosti do modeli n gramm tiyeyi chi inshoyi cilovoyi movi mova z maksimalnoyu miroyu blizkosti modeli n gramm vvazhayetsya takoyu sho peremogla U vdoskonalenih sistemah PPRLM identifikaciya movi realizuyetsya u viglyadi vidkritoyi zadachi provoditsya perevirka nalezhit ne nalezhit obroblenij fajl cilovij movi rishennya prijmayetsya avtomatichno z urahuvannyam poroga vstanovlenogo koristuvachem Do bazovogo algoritmu dodayutsya nastupni kroki na rezultuyuchu poslidovnist fonem kozhnogo fonetichnogo rozpiznavacha nakladayetsya model n gramm tiyeyi chi inshoyi opornoyi movi i rahuyutsya miri blizkosti modeli n gramm do poslidovnosti fonem povnij nabir mir blizkosti modelej n gramm do poslidovnostej fonem ye vhidnim vektorom dlya klasifikatora SVM za rezultatom klasifikaciyi SVM klasifikatorom prijmayetsya rishennya pro prinalezhnist do cilovoyi movi za dopomogoyu porivnyannya z vstanovlenim porogom dlya kozhnoyi cilovoyi movi okremo Zvukovij fajl ye vimovlenim cilovoyu movoyu yaksho ocinka sho nadana SVM klasifikatorom bilshe poroga Pri comu zvukovij fajl mozhe buti vidnesenij do odniyeyi abo dekilkoh mov odnochasno abo ne vidnesenij do zhodnoyi z nih Identifikaciya shozhih movOdniyeyu z najbilshih problem sistem identifikaciyi mov ye rozriznennya blizkosporidnenih mov Podibni movi taki yak bolgarska ta makedonska abo indonezijska ta malajska mayut znachni leksichni ta strukturni zbigi sho uskladnyuye yih rozriznennya sistemami U 2014 roci bulo organizovano spilne zavdannya DSL yake nadalo nabir danih Tan et al 2014 sho mistit 13 riznih mov i movnih riznovidiv u shesti movnih grupah Grupa A bosnijska horvatska serbska Grupa B indonezijska malajzijska Grupa C cheska slovacka Grupa D brazilska portugalska yevropejska portugalska Grupa E pivostrivna ispanska argentinska ispanska Grupa F amerikanska anglijska britanska anglijska Najkrasha sistema dosyagla produktivnosti ponad 95 rezultativ Goutte et al 2014 Rezultati spilnogo zavdannya DSL opisani v Zampieri ta in 2014 Div takozhAlgoritmichna teoriya informaciyi Kolmogorovska skladnist Mashinnij pereklad CLDRLiteraturaJoshua Goodman Extended Comment on Language Trees and Zipping 20 sichnya 2022 u Wayback Machine arXiv cond mat 0202383 cond mat stat mech Benedetto D E Caglioti and V Loreto Language trees and zipping 20 sichnya 2022 u Wayback Machine Physical Review Letters 88 4 2002 Cavnar William B and John M Trenkle N Gram Based Text Categorization Proceedings of SDAIR 94 3rd Annual Symposium on Document Analysis and Information Retrieval 1994 1 5 listopada 2013 u Wayback Machine Cilibrasi Rudi and Paul M B Vitanyi Clustering by compression 20 sichnya 2022 u Wayback Machine IEEE Transactions on Information Theory 51 4 April 2005 1523 1545 Dunning T 1994 Statistical Identification of Language Technical Report MCCS 94 273 New Mexico State University 1994 Goodman Joshua 2002 Extended comment on Language Trees and Zipping 8 lyutogo 2007 u Wayback Machine Microsoft Research Feb 21 2002 This is a criticism of the data compression in favor of the Naive Bayes method Grefenstette Gregory 1995 Comparing two language identification schemes Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data JADT 1995 Poutsma Arjen 2001 Applying Monte Carlo techniques to language identification SmartHaven Amsterdam Presented at The Economist 2002 The elements of style Analysing compressed data leads to impressive results in linguistics 17 zhovtnya 2009 u Wayback Machine PosilannyaBiblioteki algorithm and code example of an n gram based LID tool in Python and Scheme by Damir Cavar by Lingua Systems C library and Perl Extension lc4j a language categorization Java library 3 bereznya 2014 u Wayback Machine by Marco Olivo Microsoft Extended Linguistic Services for Windows 7 12 zhovtnya 2016 u Wayback Machine including Microsoft Language Detection including managed interfaces for the above NTextCat free Language Identification API for NET C 23 grudnya 2017 u Wayback Machine 280 languages available out of the box Recognizes language and encoding UTF 8 etc of text Mono compatible jsli pure JavaScript Language Identification library cldr 6 bereznya 2014 u Wayback Machine R library for Chromium Author s Compact Language Detection code language detection 23 sichnya 2016 u Wayback Machine open source language detection library for Java forks lang guess 20 sichnya 2016 u Wayback Machine and language detector 21 sichnya 2022 u Wayback Machine cld2 26 grudnya 2015 u Wayback Machine open source language detection library for C by Google GuessLanguage 31 bereznya 2022 u Wayback Machine open source language detection library for javascript GuessLanguage 14 kvitnya 2016 u Wayback Machine open source language detection library for python Text LanguageDetect 13 bereznya 2022 u Wayback Machine pear language detect not maintained currently datagram 28 veresnya 2020 u Wayback Machine open source MIT JavaScript classification library Automatically classify and recognize languages of input data It can be used for any type of classification based on trained data Web servisi Language Identification Web Service 14 travnya 2021 u Wayback Machine language detection API JSON and XML that detects 100 languages in texts websites and documents Language Detection API 27 kvitnya 2022 u Wayback Machine simple language identification API dataTXT LI 24 chervnya 2021 u Wayback Machine language identification RESTful API part of dandelion dataTXT semantic API family 17 bereznya 2015 u Wayback Machine named entity extraction text similarity etc language identification API available as SDK and through a RESTfull API provides a choice between ngram nvect and smart methods available in web based form or through API web based language identification Online identification from text or URL and API available for developers What Language Is This Online language identifier 18 bereznya 2022 u Wayback Machine web based tool written by Henrik Falck Rosette Language Identifier 14 chervnya 2011 u Wayback Machine product by Basis Technology Language Identifier 20 sichnya 2014 u Wayback Machine product by Sematext exposes Java API and is available through REST Webservice Rosoka Cloud 4 bereznya 2016 u Wayback Machine by IMT Holdings provides language ID entity and relationship extraction RESTfull web services available through Amazon Web Services Marketplace Semantria sentiment and text analytics API which features language detection Website language identification with API json XML Stel KS Identifikaciya yazyka 21 sichnya 2022 u Wayback Machine API identifikacii yazyka 11 yazykov