Лематизація (або лематизація) у лінгвістиці — це процес групування відмінюваних форм слова так, щоб їх можна було проаналізувати як єдиний елемент, ідентифікований за лемою слова або словниковою формою.
У комп'ютерній лінгвістиці лематизація — це алгоритмічний процес визначення леми слова на основі його передбачуваного значення. На відміну від стемінгу, лематизація залежить від правильного визначення передбачуваної частини мови та значення слова в реченні, а також у ширшому контексті, що оточує це речення, наприклад, у сусідніх реченнях або навіть у цілому документі. Як результат, розробка ефективних алгоритмів лематизації є відкритою областю дослідження.
Опис
У багатьох мовах слова виступають у кількох відмінюваних формах. Наприклад, в англійській мові дієслово «to walk» може виглядати як «walk», «walked», «walks» або «walking». Основна форма «ходити», яку можна знайти в словнику, називається лемою для цього слова. З'єднання форми основи з частиною мови часто називають лексемою слова.
Лематизація тісно пов'язана зі стемінгом . Різниця полягає в тому, що стемер оперує одним словом без знання контексту, і тому не може розрізняти слова, які мають різні значення залежно від частини мови. Однак стемери, як правило, легше реалізувати та працювати швидше. Знижена «точність» може не мати значення для деяких програм. Насправді, коли використовується в системах пошуку інформації, стемінг покращує точність запам'ятовування запиту або справжню позитивну швидкість порівняно з лематизацією. Тим не менш, стемінг зменшує точність або частку позитивно позначених екземплярів, які насправді є позитивними, для таких систем.
Алгоритми
Тривіальний спосіб зробити лематизацію — простий пошук у словнику. Це добре працює для прямих відмінюваних форм, але система на основі правил буде потрібна для інших випадків, наприклад у мовах з довгими складними словами . Такі правила можна створювати вручну або вивчати автоматично з анотованого корпусу .
Див. також
- Канонізація
Примітки
- Collins English Dictionary, entry for «lemmatise»
- (PDF). Архів оригіналу (PDF) за 1 листопада 2016. Процитовано 17 квітня 2023.
- . Lisbon.
{{}}
: Пропущений або порожній|title=
() - Bergmanis, Toms; Goldwater, Sharon. (PDF). Архів оригіналу (PDF) за 31 грудня 2019. Процитовано 17 квітня 2023.
- Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Lematizaciya abo lematizaciya u lingvistici ce proces grupuvannya vidminyuvanih form slova tak shob yih mozhna bulo proanalizuvati yak yedinij element identifikovanij za lemoyu slova abo slovnikovoyu formoyu U komp yuternij lingvistici lematizaciya ce algoritmichnij proces viznachennya lemi slova na osnovi jogo peredbachuvanogo znachennya Na vidminu vid stemingu lematizaciya zalezhit vid pravilnogo viznachennya peredbachuvanoyi chastini movi ta znachennya slova v rechenni a takozh u shirshomu konteksti sho otochuye ce rechennya napriklad u susidnih rechennyah abo navit u cilomu dokumenti Yak rezultat rozrobka efektivnih algoritmiv lematizaciyi ye vidkritoyu oblastyu doslidzhennya OpisU bagatoh movah slova vistupayut u kilkoh vidminyuvanih formah Napriklad v anglijskij movi diyeslovo to walk mozhe viglyadati yak walk walked walks abo walking Osnovna forma hoditi yaku mozhna znajti v slovniku nazivayetsya lemoyu dlya cogo slova Z yednannya formi osnovi z chastinoyu movi chasto nazivayut leksemoyu slova Lematizaciya tisno pov yazana zi stemingom Riznicya polyagaye v tomu sho stemer operuye odnim slovom bez znannya kontekstu i tomu ne mozhe rozriznyati slova yaki mayut rizni znachennya zalezhno vid chastini movi Odnak stemeri yak pravilo legshe realizuvati ta pracyuvati shvidshe Znizhena tochnist mozhe ne mati znachennya dlya deyakih program Naspravdi koli vikoristovuyetsya v sistemah poshuku informaciyi steming pokrashuye tochnist zapam yatovuvannya zapitu abo spravzhnyu pozitivnu shvidkist porivnyano z lematizaciyeyu Tim ne mensh steming zmenshuye tochnist abo chastku pozitivno poznachenih ekzemplyariv yaki naspravdi ye pozitivnimi dlya takih sistem AlgoritmiTrivialnij sposib zrobiti lematizaciyu prostij poshuk u slovniku Ce dobre pracyuye dlya pryamih vidminyuvanih form ale sistema na osnovi pravil bude potribna dlya inshih vipadkiv napriklad u movah z dovgimi skladnimi slovami Taki pravila mozhna stvoryuvati vruchnu abo vivchati avtomatichno z anotovanogo korpusu Div takozhKanonizaciyaPrimitkiCollins English Dictionary entry for lemmatise PDF Arhiv originalu PDF za 1 listopada 2016 Procitovano 17 kvitnya 2023 Lisbon a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite conference title Shablon Cite conference cite conference a Propushenij abo porozhnij title dovidka Bergmanis Toms Goldwater Sharon PDF Arhiv originalu PDF za 31 grudnya 2019 Procitovano 17 kvitnya 2023 Manning Christopher D Raghavan Prabhakar Schutze Hinrich Introduction to Information Retrieval Cambridge University Press