Розрізнення меж речення, також відоме, як розбиття речення, виявлення меж речення і сегментація речення – задача в галузі обробки природної мови, яка визначає місце початку й закінчення речення. Інструменти обробки тексту часто вимагають, щоб вхідні дані були розділені на самостійні фрагменти; однак ідентифікація їхніх меж може бути складною через потенційну неоднозначність розділових знаків. На письмі крапка може позначати як кінець твердження, так і абревіатуру, десятковий роздільник, трикрапку чи адресу електронної пошти. Близько 47 % крапок у корпусі The Wall Street Journal позначають акроніми. Знаки питання та оклику так само можуть бути невизначеними через використання в смайликах, комп'ютерному коді й сленгу.
Деякі мови, зокрема японська та китайська, мають чіткі маркери кінців речень.
Стратегії
Стандартний 'vanilla'-підхід для знаходження кінця речення:[]
- (a) Якщо це крапка, вона закінчує твердження.
- (b) Якщо попередній токен зі складеного вручну списку скорочень, то це не завершує речення.
- (c) Якщо наступний токен починається з великої літери – це кінець тези.
Ця стратегія правильно знаходить близько 95 % речень. Такі речі, як скорочені імена, напр. «Д. Г. Лоуренс» (з пробілами між окремими словами, які утворюють повне ім'я), ідіосинкратичний орфоепічний правопис, що використовується для стилістичних цілей (часто стосується однієї концепції, наприклад, заголовок розважального твору [en]») і використання нестандартної пунктуації у тексті часто підпадають під решту 5 %.
Інший підхід полягає в тому, щоб автоматично вивчати правила з набору документів, де кінці речень попередньо розмічені. Такі рішення базуються на [en]. Наприклад, архітектура використовує нейронну мережу для усунення неоднозначності меж речень і досягає 98,5 % точності.
Програмне забезпечення
- Приклади застосування Perl-сумісних регулярних виразів («PCRE»)
-
((?<=[a-z0-9][.?!])|(?<=[a-z0-9][.?!]\"))(\s|\r\n)(?=\"?[A-Z])
$sentences = preg_split("/(?<!\..)([\?\!\.]+)\s(?!.\.)/", $text, -1, PREG_SPLIT_DELIM_CAPTURE);
(для PHP)
- Онлайн-сервіси, бібліотеки та API
-
- sent_detector – Java
- Lingua-EN-Sentence – perl
- Sentence.pm – perl
- SATZ – An Adaptive Sentence Segmentation System – by David D. Palmer – C
- Набори інструментів, які включають виявлення речень
-
- Apache OpenNLP – [1]
- – [2]
- Natural Language Toolkit – [3]
- – [4]
- – [5]
- CogComp-NLP
Див. також
- [en]
- [en]
- Правила переносу слів на письмі
- Пунктуація
- [en]
- Сегментація (мовознавство)
- [en]
- Пам'ять перекладів
- [en]
Примітки
- E. Stamatatos; N. Fakotakis; G. Kokkinakis. . University of Patras. Архів оригіналу за 4 березня 2016. Процитовано 3 січня 2009.
- O'Neil, John. Doing Things with Words, Part Two: Sentence Boundary Detection. Процитовано 3 січня 2009.
- Reynar, JC; Ratnaparkhi, A. A Maximum Entropy Approach to Identifying Sentence Boundaries (PDF). Процитовано 3 січня 2009.
Посилання
- pySBD – python Sentence Boundary Disambiguation
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Rozriznennya mezh rechennya takozh vidome yak rozbittya rechennya viyavlennya mezh rechennya i segmentaciya rechennya zadacha v galuzi obrobki prirodnoyi movi yaka viznachaye misce pochatku j zakinchennya rechennya Instrumenti obrobki tekstu chasto vimagayut shob vhidni dani buli rozdileni na samostijni fragmenti odnak identifikaciya yihnih mezh mozhe buti skladnoyu cherez potencijnu neodnoznachnist rozdilovih znakiv Na pismi krapka mozhe poznachati yak kinec tverdzhennya tak i abreviaturu desyatkovij rozdilnik trikrapku chi adresu elektronnoyi poshti Blizko 47 krapok u korpusi The Wall Street Journal poznachayut akronimi Znaki pitannya ta okliku tak samo mozhut buti neviznachenimi cherez vikoristannya v smajlikah komp yuternomu kodi j slengu Deyaki movi zokrema yaponska ta kitajska mayut chitki markeri kinciv rechen StrategiyiStandartnij vanilla pidhid dlya znahodzhennya kincya rechennya proyasniti a Yaksho ce krapka vona zakinchuye tverdzhennya b Yaksho poperednij token zi skladenogo vruchnu spisku skorochen to ce ne zavershuye rechennya c Yaksho nastupnij token pochinayetsya z velikoyi literi ce kinec tezi Cya strategiya pravilno znahodit blizko 95 rechen Taki rechi yak skorocheni imena napr D G Lourens z probilami mizh okremimi slovami yaki utvoryuyut povne im ya idiosinkratichnij orfoepichnij pravopis sho vikoristovuyetsya dlya stilistichnih cilej chasto stosuyetsya odniyeyi koncepciyi napriklad zagolovok rozvazhalnogo tvoru en i vikoristannya nestandartnoyi punktuaciyi u teksti chasto pidpadayut pid reshtu 5 Inshij pidhid polyagaye v tomu shob avtomatichno vivchati pravila z naboru dokumentiv de kinci rechen poperedno rozmicheni Taki rishennya bazuyutsya na en Napriklad arhitektura vikoristovuye nejronnu merezhu dlya usunennya neodnoznachnosti mezh rechen i dosyagaye 98 5 tochnosti Programne zabezpechennyaPrikladi zastosuvannya Perl sumisnih regulyarnih viraziv PCRE span class o span span class err lt span span class o span span class s a z0 9 span span class o span span class err lt span span class o span span class s a z0 9 span span class err span span class o span span class err span span class nv s span span class o span span class err span span class nv r span span class err span span class nv n span span class o span span class err span span class o span span class s A Z span span class o span span class nv sentences span span class o span span class nb preg split span span class p span span class s2 lt s span span class p span span class nv text span span class p span span class o span span class mi 1 span span class p span span class nx PREG SPLIT DELIM CAPTURE span span class p span dlya PHP Onlajn servisi biblioteki ta API sent detector Java Lingua EN Sentence perl Sentence pm perl SATZ An Adaptive Sentence Segmentation System by David D Palmer C Nabori instrumentiv yaki vklyuchayut viyavlennya rechen Apache OpenNLP 1 2 Natural Language Toolkit 3 4 5 CogComp NLPDiv takozh en en Pravila perenosu sliv na pismi Punktuaciya en Segmentaciya movoznavstvo en Pam yat perekladiv en PrimitkiE Stamatatos N Fakotakis G Kokkinakis University of Patras Arhiv originalu za 4 bereznya 2016 Procitovano 3 sichnya 2009 O Neil John Doing Things with Words Part Two Sentence Boundary Detection Procitovano 3 sichnya 2009 Reynar JC Ratnaparkhi A A Maximum Entropy Approach to Identifying Sentence Boundaries PDF Procitovano 3 sichnya 2009 PosilannyapySBD python Sentence Boundary Disambiguation