У корпусній лінгвістиці, розмічування частин мови (англ. part-of-speech tagging, POS tagging, POST), також називається граматичним позначенням або розбором на частини мови, це процес позначення слова в тексті (корпусі) належним до певної частини мови, заснований як на його визначенні, так і на його контексті — тобто, на його зв'язку з суміжними і спорідненими словами у фразі, реченні, або абзаці. Спрощена форма корпусної лінгвістики зазвичай викладається дітям шкільного віку, у вигляді визначення слів як іменник, дієслово, прикметник, прислівник тощо.
Зумівши виконати визначення частин мови вручну, це почали робити в контексті обчислювальної лінгвістики, використовуючи алгоритми, які асоціюють дискретні терміни, а також приховані частини мови, відповідно до набору описових позначень. Алгоритми розбору на частини мови поділяються на дві відмінні групи: на основі правил і на стохастичні. [en], один з перших і найбільш широко використовуваних англійських розбірників, використовує алгоритми на основі правил.
Принцип
Процес позначання частин мови відбувається складніше, ніж просте створення списку слів і їх частин мови, оскільки, деякі слова можуть представляти більш ніж одну частину мови в різний час, і тому, що деякі частини мови складні або невисловлені. Це не рідкість — в природних мовах (на відміну від багатьох штучних мов), великий відсоток форм слова неоднозначний. Наприклад, в англійській мові навіть слово «dogs» (укр. собаки), яке зазвичай вважається іменником множини, може також бути дієсловом:
- The sailor dogs the hatch.
Правильне граматичне позначення покаже, що «dogs» тут використовується як дієслово, а не як іменник множини. Граматичний контекст — один із способів це визначити. Семантичний аналіз також може бути використаний для висновку, що «sailor» (укр. матрос) і «hatch» (укр. люк) втягують «dogs» у 1) морський контекст 2) дії, що застосовуються до об'єкта «hatch» (в даному контексті «dogs» є мореплавальним терміном, що означає «міцно закріплювати [водонепроникні двері]»).
У школі зазвичай навчають, що існує 9 частин мови в англійській: іменник (англ. noun), дієслово (англ. verb), артикль (англ. article), прикметник (англ. adjective), прийменник та післяйменник (англ. preposition, postposition), займенник (англ. pronoun), прислівник (англ. adverb), сполучник (англ. conjunction), та вигук (англ. interjection). Однак, очевидно, є ще багато категорій і підкатегорій. Для іменників можна виділити множину, однину та присвійну форми. У багатьох мовах слова також позначені згідно з їхніми «відмінками» (роллю як предмет, об'єкт тощо), родом, і так далі; в той час, як дієслова мають позначення для часів, видів, та інших речей. Лінгвісти розрізняють частини мови до різних точних ступенів, відображаючи обрану «систему розмітки».
У позначенні частин мови за допомогою комп'ютера типово виділяють від 50 до 150 окремих позначень частин мови для англійської. Наприклад, NN для загальних іменників однини, NNS для загальних іменників множини, NP для окремих власних іменників (див. (позначення частин мови) які використовувались у збірнику Brown Corpus). Праця над стохастичними методами розмітки Койне (DeRose 1990) використовувала більше 1000 позначень частин мови, і виявила, що приблизно стільки ж слів було багатозначними, що й в англійській. Морфосинтактичний дескриптор у випадку морфологічно багатих мов зазвичай виражається з використанням дуже короткої мнемоніки, наприклад, Ncmsan Частина мови = іменник (noun), Тип = загальний (common), Рід = чоловічий (male), Число = однина (single), Відмінок = знахідний (accusative), Істотність = не живий (no).
Історія
The Brown Corpus
Дослідження з розбору на частини мови були тісно пов'язані з корпусною лінгвістикою. Першим великим збірником англійської мови для комп'ютерного аналізу був Браун Корпус який був розроблений у Браунському університеті Генрі Кучерою та Нельсоном Францисом, в середині 1960-х. Він складається з близько 1 000 000 слів суцільного тексту англійської прози, виробленого з 500 зразків випадково вибраних публікацій. Кожен зразок становить 2000 або більше слів (закінчується на першому кінці речення після 2000 слів, так що збірник містить лише повні речення).
Протягом багатьох років Браун Корпус ретельно «розбирався» на частини мови. Перше наближення було зроблено за допомогою програми Гріна і Рубіна, яка складалася з величезного списку ручної роботи, на тему того, які категорії можуть взагалі зустрічатися. Наприклад, артикль потім іменник можливо зустріти, але артикль дієслово (можливо) ні. Програма набула близько 70 % коректності. Її результати неодноразово переглядалися і виправлялися вручну, а пізніше користувачі надсилали повідомлення про помилки, так що наприкінці 70-х років позначення частин мови було майже ідеальним (враховуючи деякі випадки, коли навіть люди не мають єдиної точки зору).
Цей збірник був використаний для незліченних досліджень частотності слів і частин мови, і надихнув на розвиток подібних «позначень» на багатьох інших мовах. Статистичні дані, отримані в результаті аналізу, послужили основою для найбільш розвинутих систем позначення частин мови, таких як [en] та . Однак до цього часу (2005 р.) він був замінений великими збірниками, такими як Британський Національний Збірник зі 100 мільйонами слів.
Протягом деякого часу, позначення частин мови вважалося невіддільною частиною обробки природної мови, тому що є певні випадки, коли правильну частину мови не можна вирішити без розуміння семантики або навіть прагматики контексту. Це надзвичайно дорого, особливо тому, що аналіз вищих рівнів набагато складніший, коли для кожного слова необхідно враховувати декілька можливих частин мови.
Використання прихованих моделей Маркова
У середині 1980-х років дослідники в Європі почали використовувати приховані марковські моделі (ПММ) для розбору на частини мови під час роботи з розбору збірника Ланкасткер-Осло-Берген (ЛОБ) Британської Англійської. ПММ включають підрахунок випадків (наприклад, на основі Brown Corpus) і складання таблиці ймовірностей певних послідовностей. Наприклад, коли ви бачите артикль, наприклад, «the», можливо, наступне слово — це іменник часу 40 %, прикметник 40 % і число 20 %. Знаючи це, програма може вирішити, що «can» у випадку «the can» має набагато більше шансів бути іменником, ніж дієсловом або модальним. Один і той же метод, звичайно, може бути використаний для отримання користі від знань про наступні слова.
Більш розвинуті («вищі порядки») ПММ вивчають ймовірності не тільки пар, але трійок або навіть більших послідовностей. Так, наприклад, якщо ви тільки що бачили іменник, за яким слідує дієслово, наступний пункт, дуже ймовірно, може бути прийменником, артиклем або іменником, але набагато менш ймовірно іншим дієсловом.
Коли зустрічаються кілька неоднозначних слів, можливості множать. Проте легко перерахувати кожну комбінацію і присвоїти кожній з них відносну ймовірність, помноживши своєю чергою ймовірності кожного вибору. Потім вибирається комбінація з найвищою ймовірністю. Європейська група розробила CLAWS, програму позначення, яка зробила саме це, і досягла точності в діапазоні 93–95 %.
Варто згадати, що [en] відмічає у статті «Статистичні методи аналізу природної мови» (1997), що призначення найпоширенішого позначення кожному відомому слову і позначення «власної назви» для всіх невідомих буде наближати до 90 % точності, оскільки багато слів є однозначними, і багато інших рідко представляють їх менш поширені частини мови.
CLAWS проклала шлях в позначенні частин мови на основі ПММ, але була досить дорогою, оскільки вона перерахувала всі можливості. Іноді доводилося вдаватися до методів резервного копіювання, коли було просто занадто багато варіантів (The Brown Corpus містить випадок з 17 неоднозначними словами в рядку, а є слова, такі як «still» (укр. досі), які можуть представляти до 7 різних частин мови (DeRose 1990, p. 82)).
ПММ лежать в основі функціонування стохастичних позначень і використовуються в різних алгоритмах, одним з найбільш широко використовуваних алгоритмів є алгоритм двонапрямного виводу.
Методи динамічного програмування
У 1987, [en] та , незалежно один від одного, розробили алгоритми динамічного програмування для вирішення однієї і тієї ж проблеми за значно менший час. Їх методи були аналогічні алгоритму Вітербі, який вже був відомим в інших областях протягом деякого часу. ДеРоуз використовував таблицю пар, тоді як Чорч використовував таблицю трійок і метод оцінки значень для трійок, які були рідкісними або відсутніми в Brown Corpus (фактичне вимірювання потрійних ймовірностей вимагало б набагато більшого збірника). Обидва способи досягли точності понад 95 %. 1990 р. Дисертація ДеРоуз у Браунському університеті включала аналіз специфічних типів помилок, ймовірностей та інших відповідних даних, і продублювала його роботу для грецької мови, де цей аналіз виявився таким же ефективним.
Ці висновки були несподівано руйнівними для області обробки природних мов. Точність повідомлень була вищою, ніж типова точність дуже складних алгоритмів, які інтегрували вибрану частину мовлення з багатьма вищими рівнями лінгвістичного аналізу: синтаксис, морфологія, семантика тощо. Методи CLAWS, DeRose і Church помилялися у деяких відомих випадках, коли потрібна семантика, але вони виявилися незначно рідкісними. Це переконало багатьох у цій галузі, що розбір на частини мови може бути корисно відокремлений від інших рівнів обробки; це, своєю чергою, спростило теорію і практику комп'ютерного мовного аналізу, а також заохотило дослідників до пошуку шляхів виділення інших частин. Моделі Маркова тепер є стандартним методом розбору на частини мови.
Безконтрольні розмітники
Розглянуті методи передбачають роботу з вже наявним збірником для вивчення ймовірностей позначень. Однак це також можливо [en] використовуючи «безконтрольні» позначення. Техніка безконтрольного позначення використовує нерозібрані збірники для своїх тренувальних даних і виробляють набір позначань за індукцією. Тобто вони спостерігають за шаблоном у використанні слова і самі виводять позначення для частини мови. Наприклад, статистика легко виявляє, що «the», «а» і «an» з'являються в аналогічних контекстах, тоді як «eats» з'являється в дуже різних. З достатньою ітерацією з'являються класи подібності слів, які є надзвичайно подібними до тих, яких очікують люди-лінгвісти; і самі відмінності іноді пропонують нові, цінні уявлення.
Ці дві категорії можуть бути додатково поділені на: основані на правилах, стохастичні та нейронні підходи.
Інші розмітники та методи
Деякі сучасні основні алгоритми для розмічування частин мови включають Алгоритм Вітербі, [en], [en], та алгоритм Баума-Уелча (також відомий як алгоритм прямого-зворотнього ходу). Розбірники, які використовують приховані Марковські моделі і неприховані Марковські моделі можуть бути реалізовані за допомогою алгоритму Вітербі. Оснований на правилах розбірник Brill незвичайний тим, що вивчає набір шаблонів правил, а потім застосовує ці моделі, а не оптимізує статистичну кількість. На відміну від розбірника Brill, де правила впорядковані послідовно, інструментарій для позначення частин мови та морфологічного розбору RDRPOSTagger [ 8 вересня 2019 у Wayback Machine.] зберігає правила у вигляді [en] дерева.
Багато методів машинного навчання також були застосовані для розв'язання проблеми позначення частин мови. Такі методи, як метод опорних векторів, [en], перцептрон, та метод k-найближчих сусідів були випробувані, і більшість може домогтися точності вище 95 %.
Пряме порівняння декількох методів можна знайти (з посиланнями) на ACL Wiki. Це порівняння використовує позначення Penn, встановлений на деяких даних Penn Treebank, тому результати можна безпосередньо порівняти.
Проте, багато значних розбірників не включені (можливо, через трудомісткість, пов'язану з їх реконфігурацією для цього конкретного набору даних). Таким чином, не слід вважати, що результати, про які повідомляється, є найкращими, які можна досягти за допомогою даного підходу. Також не є найкращими поміж тих, що вже були досягнуті за допомогою даного підходу.
Найсучасніша розробка використовує метод регуляризації структури для позначання частин мови, досягаючи 97,36 % на стандартному наборі тестів.
Проблеми
Хоча існує загальна згода щодо основних категорій, ряд крайніх випадків ускладнює розв'язання питання про єдиний «правильний» набір позначень, навіть у певній мові, наприклад, англійській. Наприклад, важко сказати, чи є «fire» (укр. вогонь) прикметником чи іменником
the big green fire truck
Другий важливий зразок [en], як у наступному прикладі, де «blue» (укр. синій) міг бути замінений словом будь-якою частиною мови (збірник позначень Brown Corpus додає суфікс «-NC» у таких випадках):
the word "blue" has 4 letters.
Слова у мові, які відрізняються від тих, що в «основному» тексті, зазвичай позначаються як «іноземні», як правило, на додаток до позначення ролі, яку іноземне слово фактично відтворює в контексті.
В англійській є також багато випадків, коли частини мови та «слова» не мають однозначної відповідності, наприклад:
as far as David's gonna don't vice versa first-cut cannot pre- and post-secondary look (a word) up
В останньому прикладі, «look» і «up», можливо, функціюють як єдине вербальна одиниця, попри можливість виникнення між ними інших слів. Деякі набори позначень (наприклад, Penn) розбивають переносні слова, скорочення і присвійні на окремі позначення, таким чином уникаючи деяких, але далеко не усіх таких проблем.
Багато наборів трактують слова «be», «have», та «do» як самостійні (як у Brown Corpus), тоді як деякі вважають їх усі просто дієсловами (наприклад, LOB Corpus та Penn [en]). Оскільки ці конкретні слова мають більше форм, ніж інші англійські дієслова, і зустрічаються в зовсім різних граматичних контекстах, трактування їх просто як «дієслова» означає, що розмітник буде мати набагато менше інформації. Наприклад, позначення, засноване на ПММ, буде поєднувати кілька рядків і стовпців, які в іншому випадку будуть не тільки окремими, але і зовсім несумісними. Складніший алгоритм може також враховувати конкретне слово в кожному випадку; але з різними позначеннями, сама ПММ часто може передбачити правильне найточніше позначення навіть для нових варіантів написання, і таким чином забезпечити кращу допомогу для подальшої обробки.
Найбільш популярний «набір позначень» для розбору на частини мови для американської англійської — ймовірно, набір позначень Penn, розроблений в проєкті Penn Treebank. Він значною мірою схоже на попередні набори Brown Corpus і LOB Corpus, хоча і набагато менший. У Європі набори з [en]) широко використовуються і включають версії для декількох мов.
Робота з розбору виконується для різних мов, а набір позначень залежить від самої мови. Позначення, як правило, розроблені таким чином, щоб включати явні морфологічні відмінності, хоча це призводить до таких невідповідностей, як наявність позначень для займенників, але відсутність для іменників в англійській, і набагато більшим міжмовним відмінностям. Набір позначень для мов з великим змістом, таких як Грецька та Латинь може бути дуже великим; віртуальний розбір слів у аглютинативних мовах таких як інуїтська може бути зовсім неможливим. З іншого боку, Петров запропонував «універсальний» набір позначень, з 12 категоріями (наприклад, ніяких підтипів іменників, дієслів, пунктуації і т. д.; немає відмінності від «to» як інфінітивного позначення проти прийменника (навряд чи «універсального» збігу) тощо). Який набір вибрати, чи дуже малий набір дуже широких міток, чи набагато більший набір більш точних, залежить від конкретної мети. Автоматичне позначання легше на менших наборах тегів.
Інша проблема полягає в тому, що деякі випадки фактично неоднозначні. Беатріс Санторіні надає приклади у «Part-of-speech Tagging Guidelines for the Penn Treebank Project», (3rd rev, June 1990 [2]), включаючи наступний (с. 32) випадок в якому entertaining (укр. розважальний) може бути або прикметником, або дієсловом, і не існує синтаксичного способу вирішення:
The Duchess was entertaining last night.
Див. також
- Семантична мережа
- [en]
- [en]
- [en]
Примітки
- . Sketch Engine. Лексичні обчислення. 27 березня 2018. Архів оригіналу за 2 квітня 2019. Процитовано 6 квітня 2018.
- . Архів оригіналу за 11 липня 2017. Процитовано 2 квітня 2019.
- . Архів оригіналу за 2 квітня 2019. Процитовано 2 квітня 2019.
- DeRose, Steven J. 1988. «Неоднозначність граматичної категорії шляхом статистичної оптимізації.» Computational Linguistics 14(1): 31–39. [1]
- Kenneth Ward Church (1988). Програма стохастичних частин і синтаксичний аналізатор для необмеженого тексту. ANLC '88: Матеріали другої конференції з прикладної обробки природної мови. Асоціація обчислювальної лінгвістики Stroudsburg, PA. doi:10.3115/974235.974260.
- . Архів оригіналу за 2 квітня 2019. Процитовано 2 квітня 2019.
- Xu Sun (2014). (PDF). Системи обробки нейронної інформації (СОНІ). с. 2402—2410. Архів оригіналу (PDF) за 3 квітня 2016. Процитовано 2 квітня 2019.
- Петров, Слав; Дас, Діпанджан; Макдоналд, Райан (11 квітня 2011). Універсальний набір позначень частин мови. arXiv:1104.2086.
- Charniak, Eugene. 1997. «Статистичні методи розпізнавання природних мов [ 14 вересня 2008 у Wayback Machine.]». AI Magazine 18(4):33–44.
- Ганс ван Галтерен, Якуб заврел, [en]. 2001. Підвищення точності в NLP шляхом поєднання систем машинного навчання. Computational Linguistics. 27(2): 199–229.
- DeRose, Steven J. 1990. «Стохастичні методи розв'язування неоднозначності граматичних категорій на мовах, що відхиляються і відбиваються.» Ph.D. Dissertation. Providence, RI: Brown University Department of Cognitive and Linguistic Sciences. Electronic Edition available at [3] [ 19 серпня 2018 у Wayback Machine.]
- D.Q. Nguyen, D.Q. Nguyen, D.D. Pham and S.B. Pham (2016). «Надійний підхід до навчання, що базується на трансформації, використовуючи правила пульсації для часткового мовлення.» AI Communications, vol. 29, no. 3, pages 409—422. [.pdf] [ 2 квітня 2019 у Wayback Machine.]
Посилання
- jPTDP [ 6 квітня 2019 у Wayback Machine.] надає попередньо підготовлені моделі для спільного розпізнавання та аналізу залежностей для 40 мов.
- RDRPOSTagger [ 8 вересня 2019 у Wayback Machine.] — надійний набір інструментів для розбору на частини мови і морфологічних міток (Python & Java). RDRPOSTagger підтримує попередньо підготовлені моделі тегування POS для 40 + мов.
- SMILE POS tagger [ 22 березня 2021 у Wayback Machine.] — безплатний онлайн-сервіс, містить розбірник на основі ПММ (Java API)
- Огляд доступних позначальників [ 16 грудня 2008 у Wayback Machine.]
- Ресурси для вивчення англійської синтаксису онлайн [ 14 липня 2019 у Wayback Machine.]
- CLAWS [ 2 квітня 2019 у Wayback Machine.]
- LingPipe [ 2 квітня 2019 у Wayback Machine.] Комерційне програмне забезпечення мовою Java для обробки мови природної мови, включаючи теги з частиною мови, які можна підготувати, з першим кращим, вихідним значенням n-best та per-tag.
- Apache OpenNLP [ 13 квітня 2012 у Wayback Machine.] AL 2.0, містить розбірники на основі класифікаторів перцептрону
- CRFTagger [ 5 квітня 2008 у Wayback Machine.] Умовні випадкові поля (УВП) розбірник на частини мови для англійської.
- JTextPro [ 19 серпня 2018 у Wayback Machine.] Інструментарій для обробки тексту на основі Java
- Citar [ 7 квітня 2019 у Wayback Machine.] LGPL C++ розбірник на частини мови, на основі прихованих марковських моделей, для Java Jitar [ 6 квітня 2019 у Wayback Machine.] також у доступі
- Ninja-PoST [ 6 квітня 2019 у Wayback Machine.] PHP версія GPoSTTL, заснований на розбірнику Еріка Бріла
- Безкоштовні та комерційні NLP вебсервіси для розбору на частини мови (і розпізнавання названих об'єктів)
- Розбір на частини мови оснований на особливостях Soundex [ 2 квітня 2019 у Wayback Machine.]
- FastTag — LGPL Java розбірник на частини мови, заснований на розбірнику Еріка Бріла [ 2 квітня 2019 у Wayback Machine.]
- jspos — LGPL Javascript версія FastTag [ 11 квітня 2010 у Wayback Machine.]
- Topia TermExtractor — Python implementation of the UPenn BioIE parts-of-speech algorithm [ 1 лютого 2018 у Wayback Machine.]
- Stanford Log-linear Розбірник на частини мови [ 2 квітня 2019 у Wayback Machine.]
- Northwestern MorphAdorner Розбірник на частини мови [ 18 березня 2012 у Wayback Machine.]
- Розбірник на частини мови для іспанської [ 13 квітня 2019 у Wayback Machine.]
- Stagger — The Stockholm Tagger, для Шведів
- TnT — Статистичне розмічування частин мови з моделлю для німецької та англійської мов [ 2 квітня 2019 у Wayback Machine.]
- petraTAG Part-of-speech tagger [ 19 серпня 2018 у Wayback Machine.] Open-source Розбірник на частини мови написаний на Java зі спеціальними функціями для позначення перекладених текстів.
- Rosette linguistics platform [ 2 квітня 2019 у Wayback Machine.] Комерційний розбірник на частини мови, лематизатор, визначальник основної фрази та інший морфологічний аналіз на Java та C++
- spaCy [ 25 березня 2022 у Wayback Machine.] Open-source (MIT) Python NLP бібліотека, що містить розбірник частин мови, який можна навчати
- [4] Аналізатор частин мови для української мови на основі словника ВЕСУМ. Має модуль зняття омонімії на основі статистики корпусу БрУК.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U korpusnij lingvistici rozmichuvannya chastin movi angl part of speech tagging POS tagging POST takozh nazivayetsya gramatichnim poznachennyam abo rozborom na chastini movi ce proces poznachennya slova v teksti korpusi nalezhnim do pevnoyi chastini movi zasnovanij yak na jogo viznachenni tak i na jogo konteksti tobto na jogo zv yazku z sumizhnimi i sporidnenimi slovami u frazi rechenni abo abzaci Sproshena forma korpusnoyi lingvistiki zazvichaj vikladayetsya dityam shkilnogo viku u viglyadi viznachennya sliv yak imennik diyeslovo prikmetnik prislivnik tosho Zumivshi vikonati viznachennya chastin movi vruchnu ce pochali robiti v konteksti obchislyuvalnoyi lingvistiki vikoristovuyuchi algoritmi yaki asociyuyut diskretni termini a takozh prihovani chastini movi vidpovidno do naboru opisovih poznachen Algoritmi rozboru na chastini movi podilyayutsya na dvi vidminni grupi na osnovi pravil i na stohastichni en odin z pershih i najbilsh shiroko vikoristovuvanih anglijskih rozbirnikiv vikoristovuye algoritmi na osnovi pravil PrincipProces poznachannya chastin movi vidbuvayetsya skladnishe nizh proste stvorennya spisku sliv i yih chastin movi oskilki deyaki slova mozhut predstavlyati bilsh nizh odnu chastinu movi v riznij chas i tomu sho deyaki chastini movi skladni abo nevislovleni Ce ne ridkist v prirodnih movah na vidminu vid bagatoh shtuchnih mov velikij vidsotok form slova neodnoznachnij Napriklad v anglijskij movi navit slovo dogs ukr sobaki yake zazvichaj vvazhayetsya imennikom mnozhini mozhe takozh buti diyeslovom The sailor dogs the hatch Pravilne gramatichne poznachennya pokazhe sho dogs tut vikoristovuyetsya yak diyeslovo a ne yak imennik mnozhini Gramatichnij kontekst odin iz sposobiv ce viznachiti Semantichnij analiz takozh mozhe buti vikoristanij dlya visnovku sho sailor ukr matros i hatch ukr lyuk vtyaguyut dogs u 1 morskij kontekst 2 diyi sho zastosovuyutsya do ob yekta hatch v danomu konteksti dogs ye moreplavalnim terminom sho oznachaye micno zakriplyuvati vodonepronikni dveri U shkoli zazvichaj navchayut sho isnuye 9 chastin movi v anglijskij imennik angl noun diyeslovo angl verb artikl angl article prikmetnik angl adjective prijmennik ta pislyajmennik angl preposition postposition zajmennik angl pronoun prislivnik angl adverb spoluchnik angl conjunction ta viguk angl interjection Odnak ochevidno ye she bagato kategorij i pidkategorij Dlya imennikiv mozhna vidiliti mnozhinu odninu ta prisvijnu formi U bagatoh movah slova takozh poznacheni zgidno z yihnimi vidminkami rollyu yak predmet ob yekt tosho rodom i tak dali v toj chas yak diyeslova mayut poznachennya dlya chasiv vidiv ta inshih rechej Lingvisti rozriznyayut chastini movi do riznih tochnih stupeniv vidobrazhayuchi obranu sistemu rozmitki U poznachenni chastin movi za dopomogoyu komp yutera tipovo vidilyayut vid 50 do 150 okremih poznachen chastin movi dlya anglijskoyi Napriklad NN dlya zagalnih imennikiv odnini NNS dlya zagalnih imennikiv mnozhini NP dlya okremih vlasnih imennikiv div poznachennya chastin movi yaki vikoristovuvalis u zbirniku Brown Corpus Pracya nad stohastichnimi metodami rozmitki Kojne DeRose 1990 vikoristovuvala bilshe 1000 poznachen chastin movi i viyavila sho priblizno stilki zh sliv bulo bagatoznachnimi sho j v anglijskij Morfosintaktichnij deskriptor u vipadku morfologichno bagatih mov zazvichaj virazhayetsya z vikoristannyam duzhe korotkoyi mnemoniki napriklad Ncmsan Chastina movi imennik noun Tip zagalnij common Rid cholovichij male Chislo odnina single Vidminok znahidnij accusative Istotnist ne zhivij no IstoriyaThe Brown Corpus Doslidzhennya z rozboru na chastini movi buli tisno pov yazani z korpusnoyu lingvistikoyu Pershim velikim zbirnikom anglijskoyi movi dlya komp yuternogo analizu buv Braun Korpus yakij buv rozroblenij u Braunskomu universiteti Genri Kucheroyu ta Nelsonom Francisom v seredini 1960 h Vin skladayetsya z blizko 1 000 000 sliv sucilnogo tekstu anglijskoyi prozi viroblenogo z 500 zrazkiv vipadkovo vibranih publikacij Kozhen zrazok stanovit 2000 abo bilshe sliv zakinchuyetsya na pershomu kinci rechennya pislya 2000 sliv tak sho zbirnik mistit lishe povni rechennya Protyagom bagatoh rokiv Braun Korpus retelno rozbiravsya na chastini movi Pershe nablizhennya bulo zrobleno za dopomogoyu programi Grina i Rubina yaka skladalasya z velicheznogo spisku ruchnoyi roboti na temu togo yaki kategoriyi mozhut vzagali zustrichatisya Napriklad artikl potim imennik mozhlivo zustriti ale artikl diyeslovo mozhlivo ni Programa nabula blizko 70 korektnosti Yiyi rezultati neodnorazovo pereglyadalisya i vipravlyalisya vruchnu a piznishe koristuvachi nadsilali povidomlennya pro pomilki tak sho naprikinci 70 h rokiv poznachennya chastin movi bulo majzhe idealnim vrahovuyuchi deyaki vipadki koli navit lyudi ne mayut yedinoyi tochki zoru Cej zbirnik buv vikoristanij dlya nezlichennih doslidzhen chastotnosti sliv i chastin movi i nadihnuv na rozvitok podibnih poznachen na bagatoh inshih movah Statistichni dani otrimani v rezultati analizu posluzhili osnovoyu dlya najbilsh rozvinutih sistem poznachennya chastin movi takih yak en ta Odnak do cogo chasu 2005 r vin buv zaminenij velikimi zbirnikami takimi yak Britanskij Nacionalnij Zbirnik zi 100 miljonami sliv Protyagom deyakogo chasu poznachennya chastin movi vvazhalosya neviddilnoyu chastinoyu obrobki prirodnoyi movi tomu sho ye pevni vipadki koli pravilnu chastinu movi ne mozhna virishiti bez rozuminnya semantiki abo navit pragmatiki kontekstu Ce nadzvichajno dorogo osoblivo tomu sho analiz vishih rivniv nabagato skladnishij koli dlya kozhnogo slova neobhidno vrahovuvati dekilka mozhlivih chastin movi Vikoristannya prihovanih modelej Markova U seredini 1980 h rokiv doslidniki v Yevropi pochali vikoristovuvati prihovani markovski modeli PMM dlya rozboru na chastini movi pid chas roboti z rozboru zbirnika Lankastker Oslo Bergen LOB Britanskoyi Anglijskoyi PMM vklyuchayut pidrahunok vipadkiv napriklad na osnovi Brown Corpus i skladannya tablici jmovirnostej pevnih poslidovnostej Napriklad koli vi bachite artikl napriklad the mozhlivo nastupne slovo ce imennik chasu 40 prikmetnik 40 i chislo 20 Znayuchi ce programa mozhe virishiti sho can u vipadku the can maye nabagato bilshe shansiv buti imennikom nizh diyeslovom abo modalnim Odin i toj zhe metod zvichajno mozhe buti vikoristanij dlya otrimannya koristi vid znan pro nastupni slova Bilsh rozvinuti vishi poryadki PMM vivchayut jmovirnosti ne tilki par ale trijok abo navit bilshih poslidovnostej Tak napriklad yaksho vi tilki sho bachili imennik za yakim sliduye diyeslovo nastupnij punkt duzhe jmovirno mozhe buti prijmennikom artiklem abo imennikom ale nabagato mensh jmovirno inshim diyeslovom Koli zustrichayutsya kilka neodnoznachnih sliv mozhlivosti mnozhat Prote legko pererahuvati kozhnu kombinaciyu i prisvoyiti kozhnij z nih vidnosnu jmovirnist pomnozhivshi svoyeyu chergoyu jmovirnosti kozhnogo viboru Potim vibirayetsya kombinaciya z najvishoyu jmovirnistyu Yevropejska grupa rozrobila CLAWS programu poznachennya yaka zrobila same ce i dosyagla tochnosti v diapazoni 93 95 Varto zgadati sho en vidmichaye u statti Statistichni metodi analizu prirodnoyi movi 1997 sho priznachennya najposhirenishogo poznachennya kozhnomu vidomomu slovu i poznachennya vlasnoyi nazvi dlya vsih nevidomih bude nablizhati do 90 tochnosti oskilki bagato sliv ye odnoznachnimi i bagato inshih ridko predstavlyayut yih mensh poshireni chastini movi CLAWS proklala shlyah v poznachenni chastin movi na osnovi PMM ale bula dosit dorogoyu oskilki vona pererahuvala vsi mozhlivosti Inodi dovodilosya vdavatisya do metodiv rezervnogo kopiyuvannya koli bulo prosto zanadto bagato variantiv The Brown Corpus mistit vipadok z 17 neodnoznachnimi slovami v ryadku a ye slova taki yak still ukr dosi yaki mozhut predstavlyati do 7 riznih chastin movi DeRose 1990 p 82 PMM lezhat v osnovi funkcionuvannya stohastichnih poznachen i vikoristovuyutsya v riznih algoritmah odnim z najbilsh shiroko vikoristovuvanih algoritmiv ye algoritm dvonapryamnogo vivodu Metodi dinamichnogo programuvannya U 1987 en ta nezalezhno odin vid odnogo rozrobili algoritmi dinamichnogo programuvannya dlya virishennya odniyeyi i tiyeyi zh problemi za znachno menshij chas Yih metodi buli analogichni algoritmu Viterbi yakij vzhe buv vidomim v inshih oblastyah protyagom deyakogo chasu DeRouz vikoristovuvav tablicyu par todi yak Chorch vikoristovuvav tablicyu trijok i metod ocinki znachen dlya trijok yaki buli ridkisnimi abo vidsutnimi v Brown Corpus faktichne vimiryuvannya potrijnih jmovirnostej vimagalo b nabagato bilshogo zbirnika Obidva sposobi dosyagli tochnosti ponad 95 1990 r Disertaciya DeRouz u Braunskomu universiteti vklyuchala analiz specifichnih tipiv pomilok jmovirnostej ta inshih vidpovidnih danih i produblyuvala jogo robotu dlya greckoyi movi de cej analiz viyavivsya takim zhe efektivnim Ci visnovki buli nespodivano rujnivnimi dlya oblasti obrobki prirodnih mov Tochnist povidomlen bula vishoyu nizh tipova tochnist duzhe skladnih algoritmiv yaki integruvali vibranu chastinu movlennya z bagatma vishimi rivnyami lingvistichnogo analizu sintaksis morfologiya semantika tosho Metodi CLAWS DeRose i Church pomilyalisya u deyakih vidomih vipadkah koli potribna semantika ale voni viyavilisya neznachno ridkisnimi Ce perekonalo bagatoh u cij galuzi sho rozbir na chastini movi mozhe buti korisno vidokremlenij vid inshih rivniv obrobki ce svoyeyu chergoyu sprostilo teoriyu i praktiku komp yuternogo movnogo analizu a takozh zaohotilo doslidnikiv do poshuku shlyahiv vidilennya inshih chastin Modeli Markova teper ye standartnim metodom rozboru na chastini movi Bezkontrolni rozmitniki Rozglyanuti metodi peredbachayut robotu z vzhe nayavnim zbirnikom dlya vivchennya jmovirnostej poznachen Odnak ce takozh mozhlivo en vikoristovuyuchi bezkontrolni poznachennya Tehnika bezkontrolnogo poznachennya vikoristovuye nerozibrani zbirniki dlya svoyih trenuvalnih danih i viroblyayut nabir poznachan za indukciyeyu Tobto voni sposterigayut za shablonom u vikoristanni slova i sami vivodyat poznachennya dlya chastini movi Napriklad statistika legko viyavlyaye sho the a i an z yavlyayutsya v analogichnih kontekstah todi yak eats z yavlyayetsya v duzhe riznih Z dostatnoyu iteraciyeyu z yavlyayutsya klasi podibnosti sliv yaki ye nadzvichajno podibnimi do tih yakih ochikuyut lyudi lingvisti i sami vidminnosti inodi proponuyut novi cinni uyavlennya Ci dvi kategoriyi mozhut buti dodatkovo podileni na osnovani na pravilah stohastichni ta nejronni pidhodi Inshi rozmitniki ta metodi Deyaki suchasni osnovni algoritmi dlya rozmichuvannya chastin movi vklyuchayut Algoritm Viterbi en en ta algoritm Bauma Uelcha takozh vidomij yak algoritm pryamogo zvorotnogo hodu Rozbirniki yaki vikoristovuyut prihovani Markovski modeli i neprihovani Markovski modeli mozhut buti realizovani za dopomogoyu algoritmu Viterbi Osnovanij na pravilah rozbirnik Brill nezvichajnij tim sho vivchaye nabir shabloniv pravil a potim zastosovuye ci modeli a ne optimizuye statistichnu kilkist Na vidminu vid rozbirnika Brill de pravila vporyadkovani poslidovno instrumentarij dlya poznachennya chastin movi ta morfologichnogo rozboru RDRPOSTagger 8 veresnya 2019 u Wayback Machine zberigaye pravila u viglyadi en dereva Bagato metodiv mashinnogo navchannya takozh buli zastosovani dlya rozv yazannya problemi poznachennya chastin movi Taki metodi yak metod opornih vektoriv en perceptron ta metod k najblizhchih susidiv buli viprobuvani i bilshist mozhe domogtisya tochnosti vishe 95 Pryame porivnyannya dekilkoh metodiv mozhna znajti z posilannyami na ACL Wiki Ce porivnyannya vikoristovuye poznachennya Penn vstanovlenij na deyakih danih Penn Treebank tomu rezultati mozhna bezposeredno porivnyati Prote bagato znachnih rozbirnikiv ne vklyucheni mozhlivo cherez trudomistkist pov yazanu z yih rekonfiguraciyeyu dlya cogo konkretnogo naboru danih Takim chinom ne slid vvazhati sho rezultati pro yaki povidomlyayetsya ye najkrashimi yaki mozhna dosyagti za dopomogoyu danogo pidhodu Takozh ne ye najkrashimi pomizh tih sho vzhe buli dosyagnuti za dopomogoyu danogo pidhodu Najsuchasnisha rozrobka vikoristovuye metod regulyarizaciyi strukturi dlya poznachannya chastin movi dosyagayuchi 97 36 na standartnomu nabori testiv ProblemiHocha isnuye zagalna zgoda shodo osnovnih kategorij ryad krajnih vipadkiv uskladnyuye rozv yazannya pitannya pro yedinij pravilnij nabir poznachen navit u pevnij movi napriklad anglijskij Napriklad vazhko skazati chi ye fire ukr vogon prikmetnikom chi imennikom the big green fire truck Drugij vazhlivij zrazok en yak u nastupnomu prikladi de blue ukr sinij mig buti zaminenij slovom bud yakoyu chastinoyu movi zbirnik poznachen Brown Corpus dodaye sufiks NC u takih vipadkah the word blue has 4 letters Slova u movi yaki vidriznyayutsya vid tih sho v osnovnomu teksti zazvichaj poznachayutsya yak inozemni yak pravilo na dodatok do poznachennya roli yaku inozemne slovo faktichno vidtvoryuye v konteksti V anglijskij ye takozh bagato vipadkiv koli chastini movi ta slova ne mayut odnoznachnoyi vidpovidnosti napriklad as far as David s gonna don t vice versa first cut cannot pre and post secondary look a word up V ostannomu prikladi look i up mozhlivo funkciyuyut yak yedine verbalna odinicya popri mozhlivist viniknennya mizh nimi inshih sliv Deyaki nabori poznachen napriklad Penn rozbivayut perenosni slova skorochennya i prisvijni na okremi poznachennya takim chinom unikayuchi deyakih ale daleko ne usih takih problem Bagato naboriv traktuyut slova be have ta do yak samostijni yak u Brown Corpus todi yak deyaki vvazhayut yih usi prosto diyeslovami napriklad LOB Corpus ta Penn en Oskilki ci konkretni slova mayut bilshe form nizh inshi anglijski diyeslova i zustrichayutsya v zovsim riznih gramatichnih kontekstah traktuvannya yih prosto yak diyeslova oznachaye sho rozmitnik bude mati nabagato menshe informaciyi Napriklad poznachennya zasnovane na PMM bude poyednuvati kilka ryadkiv i stovpciv yaki v inshomu vipadku budut ne tilki okremimi ale i zovsim nesumisnimi Skladnishij algoritm mozhe takozh vrahovuvati konkretne slovo v kozhnomu vipadku ale z riznimi poznachennyami sama PMM chasto mozhe peredbachiti pravilne najtochnishe poznachennya navit dlya novih variantiv napisannya i takim chinom zabezpechiti krashu dopomogu dlya podalshoyi obrobki Najbilsh populyarnij nabir poznachen dlya rozboru na chastini movi dlya amerikanskoyi anglijskoyi jmovirno nabir poznachen Penn rozroblenij v proyekti Penn Treebank Vin znachnoyu miroyu shozhe na poperedni nabori Brown Corpus i LOB Corpus hocha i nabagato menshij U Yevropi nabori z en shiroko vikoristovuyutsya i vklyuchayut versiyi dlya dekilkoh mov Robota z rozboru vikonuyetsya dlya riznih mov a nabir poznachen zalezhit vid samoyi movi Poznachennya yak pravilo rozrobleni takim chinom shob vklyuchati yavni morfologichni vidminnosti hocha ce prizvodit do takih nevidpovidnostej yak nayavnist poznachen dlya zajmennikiv ale vidsutnist dlya imennikiv v anglijskij i nabagato bilshim mizhmovnim vidminnostyam Nabir poznachen dlya mov z velikim zmistom takih yak Grecka ta Latin mozhe buti duzhe velikim virtualnij rozbir sliv u aglyutinativnih movah takih yak inuyitska mozhe buti zovsim nemozhlivim Z inshogo boku Petrov zaproponuvav universalnij nabir poznachen z 12 kategoriyami napriklad niyakih pidtipiv imennikiv diyesliv punktuaciyi i t d nemaye vidminnosti vid to yak infinitivnogo poznachennya proti prijmennika navryad chi universalnogo zbigu tosho Yakij nabir vibrati chi duzhe malij nabir duzhe shirokih mitok chi nabagato bilshij nabir bilsh tochnih zalezhit vid konkretnoyi meti Avtomatichne poznachannya legshe na menshih naborah tegiv Insha problema polyagaye v tomu sho deyaki vipadki faktichno neodnoznachni Beatris Santorini nadaye prikladi u Part of speech Tagging Guidelines for the Penn Treebank Project 3rd rev June 1990 2 vklyuchayuchi nastupnij s 32 vipadok v yakomu entertaining ukr rozvazhalnij mozhe buti abo prikmetnikom abo diyeslovom i ne isnuye sintaksichnogo sposobu virishennya The Duchess was entertaining last night Div takozhSemantichna merezha en en en Primitki Sketch Engine Leksichni obchislennya 27 bereznya 2018 Arhiv originalu za 2 kvitnya 2019 Procitovano 6 kvitnya 2018 Arhiv originalu za 11 lipnya 2017 Procitovano 2 kvitnya 2019 Arhiv originalu za 2 kvitnya 2019 Procitovano 2 kvitnya 2019 DeRose Steven J 1988 Neodnoznachnist gramatichnoyi kategoriyi shlyahom statistichnoyi optimizaciyi Computational Linguistics 14 1 31 39 1 Kenneth Ward Church 1988 Programa stohastichnih chastin i sintaksichnij analizator dlya neobmezhenogo tekstu ANLC 88 Materiali drugoyi konferenciyi z prikladnoyi obrobki prirodnoyi movi Asociaciya obchislyuvalnoyi lingvistiki Stroudsburg PA doi 10 3115 974235 974260 Arhiv originalu za 2 kvitnya 2019 Procitovano 2 kvitnya 2019 Xu Sun 2014 PDF Sistemi obrobki nejronnoyi informaciyi SONI s 2402 2410 Arhiv originalu PDF za 3 kvitnya 2016 Procitovano 2 kvitnya 2019 Petrov Slav Das Dipandzhan Makdonald Rajan 11 kvitnya 2011 Universalnij nabir poznachen chastin movi arXiv 1104 2086 Charniak Eugene 1997 Statistichni metodi rozpiznavannya prirodnih mov 14 veresnya 2008 u Wayback Machine AI Magazine 18 4 33 44 Gans van Galteren Yakub zavrel en 2001 Pidvishennya tochnosti v NLP shlyahom poyednannya sistem mashinnogo navchannya Computational Linguistics 27 2 199 229 DeRose Steven J 1990 Stohastichni metodi rozv yazuvannya neodnoznachnosti gramatichnih kategorij na movah sho vidhilyayutsya i vidbivayutsya Ph D Dissertation Providence RI Brown University Department of Cognitive and Linguistic Sciences Electronic Edition available at 3 19 serpnya 2018 u Wayback Machine D Q Nguyen D Q Nguyen D D Pham and S B Pham 2016 Nadijnij pidhid do navchannya sho bazuyetsya na transformaciyi vikoristovuyuchi pravila pulsaciyi dlya chastkovogo movlennya AI Communications vol 29 no 3 pages 409 422 pdf 2 kvitnya 2019 u Wayback Machine PosilannyajPTDP 6 kvitnya 2019 u Wayback Machine nadaye poperedno pidgotovleni modeli dlya spilnogo rozpiznavannya ta analizu zalezhnostej dlya 40 mov RDRPOSTagger 8 veresnya 2019 u Wayback Machine nadijnij nabir instrumentiv dlya rozboru na chastini movi i morfologichnih mitok Python amp Java RDRPOSTagger pidtrimuye poperedno pidgotovleni modeli teguvannya POS dlya 40 mov SMILE POS tagger 22 bereznya 2021 u Wayback Machine bezplatnij onlajn servis mistit rozbirnik na osnovi PMM Java API Oglyad dostupnih poznachalnikiv 16 grudnya 2008 u Wayback Machine Resursi dlya vivchennya anglijskoyi sintaksisu onlajn 14 lipnya 2019 u Wayback Machine CLAWS 2 kvitnya 2019 u Wayback Machine LingPipe 2 kvitnya 2019 u Wayback Machine Komercijne programne zabezpechennya movoyu Java dlya obrobki movi prirodnoyi movi vklyuchayuchi tegi z chastinoyu movi yaki mozhna pidgotuvati z pershim krashim vihidnim znachennyam n best ta per tag Apache OpenNLP 13 kvitnya 2012 u Wayback Machine AL 2 0 mistit rozbirniki na osnovi klasifikatoriv perceptronu CRFTagger 5 kvitnya 2008 u Wayback Machine Umovni vipadkovi polya UVP rozbirnik na chastini movi dlya anglijskoyi JTextPro 19 serpnya 2018 u Wayback Machine Instrumentarij dlya obrobki tekstu na osnovi Java Citar 7 kvitnya 2019 u Wayback Machine LGPL C rozbirnik na chastini movi na osnovi prihovanih markovskih modelej dlya Java Jitar 6 kvitnya 2019 u Wayback Machine takozh u dostupi Ninja PoST 6 kvitnya 2019 u Wayback Machine PHP versiya GPoSTTL zasnovanij na rozbirniku Erika Brila Bezkoshtovni ta komercijni NLP vebservisi dlya rozboru na chastini movi i rozpiznavannya nazvanih ob yektiv Rozbir na chastini movi osnovanij na osoblivostyah Soundex 2 kvitnya 2019 u Wayback Machine FastTag LGPL Java rozbirnik na chastini movi zasnovanij na rozbirniku Erika Brila 2 kvitnya 2019 u Wayback Machine jspos LGPL Javascript versiya FastTag 11 kvitnya 2010 u Wayback Machine Topia TermExtractor Python implementation of the UPenn BioIE parts of speech algorithm 1 lyutogo 2018 u Wayback Machine Stanford Log linear Rozbirnik na chastini movi 2 kvitnya 2019 u Wayback Machine Northwestern MorphAdorner Rozbirnik na chastini movi 18 bereznya 2012 u Wayback Machine Rozbirnik na chastini movi dlya ispanskoyi 13 kvitnya 2019 u Wayback Machine Stagger The Stockholm Tagger dlya Shvediv TnT Statistichne rozmichuvannya chastin movi z modellyu dlya nimeckoyi ta anglijskoyi mov 2 kvitnya 2019 u Wayback Machine petraTAG Part of speech tagger 19 serpnya 2018 u Wayback Machine Open source Rozbirnik na chastini movi napisanij na Java zi specialnimi funkciyami dlya poznachennya perekladenih tekstiv Rosette linguistics platform 2 kvitnya 2019 u Wayback Machine Komercijnij rozbirnik na chastini movi lematizator viznachalnik osnovnoyi frazi ta inshij morfologichnij analiz na Java ta C spaCy 25 bereznya 2022 u Wayback Machine Open source MIT Python NLP biblioteka sho mistit rozbirnik chastin movi yakij mozhna navchati 4 Analizator chastin movi dlya ukrayinskoyi movi na osnovi slovnika VESUM Maye modul znyattya omonimiyi na osnovi statistiki korpusu BrUK