Обро́бка приро́дної мо́ви (англ. Natural language processing, NLP) — загальний напрям інформатики, штучного інтелекту та математичної лінгвістики. Він вивчає проблеми та синтезу природної мови. Стосовно штучного інтелекту аналіз означає розуміння мови, а синтез — генерацію розумного тексту. Розв'язок цих проблем буде означати створення зручнішої форми взаємодії комп'ютера та людини.
За словами дослідниці Елізабет Лідді: «Обробка природної мови — це комп'ютеризований підхід до аналізу тексту, що базується на низці теорій та наборі технологій. Ця галузь не має одного загальноприйнятого визначення, адже вона перебуває у стані постійних досліджень та розробок. Однак, існують певні аспекти, які б об'єднували усі існуючі визначення».
Олег Іванов, український дослідник у галузі масових комунікацій, визначає аналіз природної мови як «міждисциплінарну галузь науки, що охоплює методики обчислювальної лінгвістики та теорії штучного інтелекту, основним проблемним полем якої є забезпечення взаємодії людських комунікативних актів (вербальних та невербальних) та комп'ютерних систем».
Історія розвитку
Британська вчена Карен Спарк Джонс виділяє чотири етапи розвитку обробки природної мови:
Перша фаза (кінець 1940-х — кінець 1960-х)
Перша фаза розвитку обробки природної мови припадала на період кінця 1940-х до кінця 1960-х років. Робота у даний час була сфокусована на машинному перекладі. У 1952 році відбулась перша міжнародна конференція, фокусом якої став машинний переклад. Першим прикладом машинного перекладу, який був представлений на Джорджтаунському експерименті (демонстрація машинного перекладу, 1954 р.) був англо-російський елементарний автоматичний переклад. 1954-й рік став знаковим не лише завдяки першій демонстрації машинного перекладу, а й завдяки публікації першого випуску журналу «Механічний переклад». Кульмінацією першого етапу стала Теддінгтонська міжнародна конференція з машинного мовного перекладу та прикладного мовного аналізу, проведена у 1961 році, на якій було представлено досягнення різних країн світу у галузях морфології, синтаксису, семантики та інтерпретації. Даний період відзначився активністю та ентузіазмом. Незважаючи на низький технологічний розвиток, що значно ускладнював обробку даних, дослідники не боялись зіштовхнутись зі складними завданнями, які поставали перед ними у цей період.
Друга фаза (кінець 1960-х — кінець 1970-х)
Друга фаза розвитку обробки природної мови припала на кінець 1960-х до кінця 1970-х років та пов'язана зі штучним інтелектом. Дослідники цього періоду найбільшу увагу приділяють знанню про світ та формуванню певних значень у мовленні. Першою ранньою програмою розуміння природної мови була SHRDLU, розроблена у 1972 році. Дана програма розуміла велику кількість англомовних слів та могла робити певні висновки. Це було великим досягненням у дослідженнях штучного інтелекту, проте програми такого типу стикались із ситуаціями реального світу, з якими їм впоратись не вдавалось.
Третя фаза (кінець 1970-х — кінець 1980-х)
Третя фаза розвитку обробки природної мови тривала з кінця 1970-х та до кінця 1980-х років. В ній тісно переплелись такі галузі як штучний інтелект та семантика. Застосування штучного інтелекту в обробці природної мови вимагало розробки . В практичному сенсі лінгвісти розробили цілу низку граматичних типів, наприклад, функціональний та категоріальний, які були орієнтовані на обчислюваність. Даний період також характеризується стрімким розвитком логічного програмування з метою навчання програм обробки певних текстів.
Четверта фаза (1990-ті)
Четверта фаза почалась у 1990-х роках, на початку якої здобув популярність лексичний підхід до граматики. Одне з провідних місць в обробці природної мови займав , який дозволяв тепер не просто аналізувати дані, але й справді застосовувати цей метод для обробки природної мови. Останнє десятиліття 20-го століття характеризувалось застосуванням методики спрощення текстів для виокремлення важливих одиниць з певного потоку інформації.
Розвиток обробки природної мови в XXI столітті
На початку 2023 року, вчені Стенфордського університету (Каліфорнія, США) встановили новий рекорд роботи мовного інтерфейсу мозок-комп'ютер (Brain-Computer Interface, ВСІ), досягнувши рекордно високого показника декодування мови. Новий рекорд полягає в тому, що швидкість декодування мови штучного інтелекту досягла 62 слова на хвилину, що в 3,4 рази швидше за попередній рекорд для будь-якого виду BCI.
Задачі та обмеження
Розуміння природної мови іноді вважають AI-повною задачею, тому що розпізнавання живої мови потребує величезних знань системи про навколишнє середовище та можливості взаємодіяти з ним. Саме означення змісту слова «розуміти» — одна з головних задач штучного інтелекту. В наш час значну роль у вирішенні задач з обробки природномовних даних відіграють онтології, наприклад, WordNet, UWN. У процесі дослідження обробки природної мови було досягнуто значних результатів, серед яких розробка потужних лексикографічних систем, програм для машинного перекладу, електронних словників та ін. Однак, існує проблема, яка досі не знайшла свого вирішення, вона коріниться у самій природі людської мови. Проблема розуміння людського мовлення полягає саме у його неоднозначності. Можна виділити наступні види неоднозначностей:
- Синтаксична неоднозначність: у прислів'ї «Час — не кінь, не підженеш і не зупиниш» для обробки природної мови буде абсолютно неясним те, про що саме йдеться у реченні, про коня чи про час.
- Смислова неоднозначність: у питанні «Де знайти ключ до того замку?» слово замок може мати два абсолютно різні значення, зважаючи на поставлений наголос.
- Відмінкова неоднозначність: у фразах «Усі були схвильовані перед концертом» та «Не треба давати перед!» слово перед означає час або місце, що абсолютно змінює сенс фрази.
- Референційна неоднозначність: у фразі «Відкрий поличку та дістань мокру парасольку, я хочу її висушити» займенник її за смисловим значенням матиме відношення до мокрої парасольки, проте для машини, у якої повністю відсутнє розуміння реальності, даний займенник відноситиметься як до полички, так і до парасольки.
Одним із викликів, який виникає у процесі обробки природної мови, можна вважати проблему синонімії, в результаті якої одне поняття може бути вираженим декількома різними словами. Як наслідок, релевантні документи, в яких використано синоніми понять, що було вказано користувачем у запиті, може бути не визначено системою.
Вплив вищеперелічених явищ є особливо відчутним при створенні систем машинного перекладу. Проблема полягає у складності встановлення конкретного відображення дійсної семантико-синтаксичної структури речення у його внутрішнє логічне уявлення, яке автоматично генерується системою.
Розв'язання таких типів неоднозначностей можливе за допомогою введення додаткових значень, які збільшать знання програми про ту чи іншу галузь. Сьогодні програм, які «розуміють» усі типи неоднозначностей у великому спектрі галузей, не існує, проте є програми, що можуть коректно реагувати на неоднозначності у дуже вузьких сферах.
Головні завдання
- Видобування даних: вивчення даних, пошук зв'язків та закономірностей між ними
- Синтез мовлення: озвучення/прочитання тексту (документ, повідомлення і т. д.) голосом, який є наближеним до природного
- Розпізнавання мови: виведення/розпізнавання тексту з картинок, відсканованих документів або файлів у PDF форматі. Сюди ж входить розпізнавання мовлення, продуковане людським голосом.
- Генерування природної мови: конвертування комп'ютерних даних у природну мову людини.
- Машинний переклад: автоматичний переклад з однієї людської мови на іншу. Дане завдання є надзвичайно складним, адже машина не володіє тими знаннями, якими володіє людина, що робить їх «розуміння» тих чи інших фраз абсолютно різним.
- Питально-відповідальні системи: відповіді на питання, поставлені людською мовою. Зазвичай питання є конкретизованими, наприклад, «Де знаходиться Ейфелева Вежа?», проте існують питання, на які немає конкретної відповіді, наприклад, «Чому всі люди різні?», що робить дане завдання надзвичайно складним для виконання.
- Розпізнавання/визначення теми: поділ тексту на частини з подальшим визначенням провідної теми для кожної з них.
- Інформаційний пошук: пошук, розпізнавання та видобування інформації.
- Добування даних: отримання семантичної інформації з тексту.
- Отримання зв'язків: визначення відносин між об'єктами у певному шматку тексту (наприклад, хто з ким працює).
- Спрощення тексту: зміна, розширення або інша обробка інформації для спрощення структури або граматики тексту зі збереженням основної думки.
- Розв'язання лексичної багатоманітності: надання списку можливих значень конкретного багатозначного слова, серед яких можна вибрати найбільш підходяще відповідно до контексту.
- Розпізнавання абревіатур та заголовків
- Детектування окремих лінгвістичних одиниць
- Морфологічна декомпозиція: перетворення окремих термінів (наприклад, медичних або технічних) у зрозумілу форму.
Підходи до виконання завдань
Статистичний підхід
В основі статистичного підходу до обробки природної мови лежить припущення, що зміст тексту може бути визначено за найуживанішими словами. Основним завданням даного підходу є визначення кількості повторень конкретного слова та словосполучень в тексті. Латентно-семантичний підхід є різновидом статистичного методу та базується на ідеї, що сукупність усіх контекстів, у яких зустрічається або не зустрічається дане слово, визначає множину взаємних обмежень для виявлення схожостей у значеннях слів. Основна проблема, з якою стикаються статистичні підходи, полягає в розгляді тексту як набору слів без смислового зв'язку.
Лінгвістичний підхід
Лінгвістичний підхід до обробки природної мови складається з чотирьох рівнів: графематичного, морфологічного, синтаксичного та семантичного. Перший рівень полягає у виділенні окремих елементів тексту/документу, наприклад, розділів, абзаців, речень і т. д. Другий рівень полягає у визначенні морфологічних характеристик окремого слова. Третій рівень відповідає за визначення синтаксичної залежності слів у реченнях. Останній рівень пов'язаний зі смисловим розумінням тексту, що включає розробки у сфері штучного інтелекту. Дослідницькі досягнення у цій сфері є дуже обмеженими у зв'язку зі складністю людської мови.
Символічний підхід
Символічний підхід до обробки природної мови здійснює глибинний аналіз лінгвістичних явищ та базується на явному представленні знань, що здійснюється шляхом використання добре досліджених схем представлення знань та алгоритмів, що працюють з ними. Джерелом знання про мову можуть виступати словники, формули та правила, розроблені людьми.
Коннективістський підхід
Даний метод обробки природної мови відповідає за обробку загальних моделей з використанням конкретних прикладів мовних явищ. Найбільш значуща відмінність коннективістського підходу від інших статистичних методів полягає у поєднанні статистичних знань та різних теорій уявлень, що дозволяють працювати з логічними висновками та трансформацією логічних формул.
Метод допоміжних векторів
Диференційний метод машинного навчання, що допомагає провести класифікацію слів за категоріями. Даний метод побудований на певній множині властивостей.
Це така графічна система, у якій кожна вершина позначає випадкову змінну, що може набувати будь-якого значення (з певними ймовірностями) між декількома станами, породжуючи при цьому один з декількох можливих вихідних символів з кожним переходом. Множина всіх можливих станів та унікальних символів може бути великою. Ми можемо бачити вихідні дані, проте початкові стани системи є прихованими.
Роздільна (диференційна) модель, яка формує логістичну регресію для послідовності даних. Використовується для передбачення стану змінної, що базується на спостереженій змінній.
N-грамні моделі
Модель побудована на послідовності з n елементів: речень, слів, букв, звуків і т. д. Модель дозволяє розрахувати ймовірність появи будь-якого елемента за відомих ймовірностей появи таких попередніх елементів. Така модель зводиться до скінченної множини ймовірностей, кожну з яких може бути оцінено після обчислення повторюваності відповідних n-грам.
Рівні обробки природної мови
Зрозуміти, що ж таки відбувається в системі обробки природної мови, можна завдяки рівням мовної структури. Значення мовлення людини передається кожним рівнем мови. Для того, щоб обробка природної мови була максимально ефективною, потрібно щоб її система включала усі мовні рівні. Обробка природної мови виконується у шість рівнів:
- Фонологічний аналіз полягає у дослідженні організації та інтерпретації звуків мовлення у мові. Базовими правилами фонологічного аналізу вважаються фонетичні, фонемні та просодичні.
- Морфологічний аналіз можна визначити як аспект дослідження, що полягає у ідентифікації, аналізі та описі структури або форм слів у мові.
- Лексичний аналіз полягає у поділі тексту на розділи, абзаци, речення та/або слова.
- Синтаксичний аналіз полягає в аналізі слів у реченні задля розуміння його граматичної структури. Слова перетворюються в структури, що показують, який зв'язок існує між словами. Окремі сполучення слів може бути виконано у зв'язку з порушенням граматичних правил або правил комбінування слів у мові.
- Семантичний аналіз має справу зі значеннями слів, фраз та речень у мові. Він сприяє визначенню можливих смислів речення у контексті.
- Прагматичний аналіз є аспектом дослідження, що дозволяє зрозуміти, як комбінуються речення з різними контекстами для формування абзаців, текстів або діалогів. Прагматичний аналіз полягає в інтерпретації окремих речень у відповідних для них контекстах.
Див. також
Примітки
- Liddy, E.D. 2001. Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. NY. Marcel Decker, Inc. — P.1
- Іванов О. В. Класичний контент-аналіз та аналіз тексту: термінологічні та методологічні відмінності / Іванов Олег Валерійович // Вісник Харківського національного університету імені В. Н. Каразіна, Харків: Видавничий центр ХНУ імені В. Н. Каразіна, 2013. — № 1045. — С.72
- Karen S. Jones. Natural language processing: a historical review //Cambridge: Computer Laboratory, University of Cambridge, 2001. — P.2
- Штучний інтелект поставив світовий рекорд у зчитуванні людських думок. 23.01.2023, 11:40 am
- История компьютера. chernykh.net. Архів оригіналу за 8 грудня 2015. Процитовано 30 листопада 2015.
- Анисимов А. В., Марченко А. А. Система обработки текстов на естественном языке // «Штучний інтелект». — 2002. — № 4. -С. 157
- Демократизація письмової комунікації для розвитку власних можливостей НЛГ. 21.06.2022
- Слюсар, В.И. (2020). Применение торцевого произведения матриц в задачах обработки естественного языка (PDF). Нейромережні технології та їх застосування НМТіЗ-2020: збірник наукових праць XIX Міжнародної наукової конференції «Нейромережні технології та їх застосування НМТіЗ-2020». - Краматорськ: Донбаська державна машинобудівна академія. -2020 . с. 156 - 162. Архів оригіналу (PDF) за 25 січня 2021. Процитовано 12 грудня 2020.
- Диковицкий В. В., Шишаев М. Г. Обработка текстов естественного языка в моделях поисковых систем // Сборник научных трудов. — 2010. — С.30
- Liddy, E.D. 2001. Natural Language Processing. In Encyclopedia of Library and Information Science, 2nd Ed. NY. Marcel Decker, Inc. — P.10
- Бабенко Т. В., Сушко С. О. Про ентропію української мови // Науково-практичний журнал «Захист інформації». — 2012. — № 3. — С. 105
- Olaronke G. Iroju, Janet O. Olaleke, A Systematic Review in Natural Language Processing in Healthcare // I.J. Information Technology and Computer Science. — 2015. — #8. — P. 45
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Obro bka priro dnoyi mo vi angl Natural language processing NLP zagalnij napryam informatiki shtuchnogo intelektu ta matematichnoyi lingvistiki Vin vivchaye problemi komp yuternogo analizu ta sintezu prirodnoyi movi Stosovno shtuchnogo intelektu analiz oznachaye rozuminnya movi a sintez generaciyu rozumnogo tekstu Rozv yazok cih problem bude oznachati stvorennya zruchnishoyi formi vzayemodiyi komp yutera ta lyudini Za slovami doslidnici Elizabet Liddi Obrobka prirodnoyi movi ce komp yuterizovanij pidhid do analizu tekstu sho bazuyetsya na nizci teorij ta nabori tehnologij Cya galuz ne maye odnogo zagalnoprijnyatogo viznachennya adzhe vona perebuvaye u stani postijnih doslidzhen ta rozrobok Odnak isnuyut pevni aspekti yaki b ob yednuvali usi isnuyuchi viznachennya 1 Oleg Ivanov ukrayinskij doslidnik u galuzi masovih komunikacij viznachaye analiz prirodnoyi movi yak mizhdisciplinarnu galuz nauki sho ohoplyuye metodiki obchislyuvalnoyi lingvistiki ta teoriyi shtuchnogo intelektu osnovnim problemnim polem yakoyi ye zabezpechennya vzayemodiyi lyudskih komunikativnih aktiv verbalnih ta neverbalnih ta komp yuternih sistem 2 Zmist 1 Istoriya rozvitku 1 1 Persha faza kinec 1940 h kinec 1960 h 1 2 Druga faza kinec 1960 h kinec 1970 h 1 3 Tretya faza kinec 1970 h kinec 1980 h 1 4 Chetverta faza 1990 ti 1 5 Rozvitok obrobki prirodnoyi movi v XXI stolitti 2 Zadachi ta obmezhennya 3 Golovni zavdannya 4 Pidhodi do vikonannya zavdan 4 1 Statistichnij pidhid 4 2 Lingvistichnij pidhid 4 3 Simvolichnij pidhid 4 4 Konnektivistskij pidhid 4 5 Metod dopomizhnih vektoriv 4 6 Prihovana markovska model 4 7 Umovni vipadkovi polya 4 8 N gramni modeli 5 Rivni obrobki prirodnoyi movi 6 Div takozh 7 PrimitkiIstoriya rozvitkured Britanska vchena Karen Spark Dzhons vidilyaye chotiri etapi rozvitku obrobki prirodnoyi movi 3 Persha faza kinec 1940 h kinec 1960 h red Persha faza rozvitku obrobki prirodnoyi movi pripadala na period kincya 1940 h do kincya 1960 h rokiv Robota u danij chas bula sfokusovana na mashinnomu perekladi U 1952 roci vidbulas persha mizhnarodna konferenciya fokusom yakoyi stav mashinnij pereklad Pershim prikladom mashinnogo perekladu yakij buv predstavlenij na Dzhordzhtaunskomu eksperimenti demonstraciya mashinnogo perekladu 1954 r buv anglo rosijskij elementarnij avtomatichnij pereklad 1954 j rik stav znakovim ne lishe zavdyaki pershij demonstraciyi mashinnogo perekladu a j zavdyaki publikaciyi pershogo vipusku zhurnalu Mehanichnij pereklad Kulminaciyeyu pershogo etapu stala Teddingtonska mizhnarodna konferenciya z mashinnogo movnogo perekladu ta prikladnogo movnogo analizu provedena u 1961 roci na yakij bulo predstavleno dosyagnennya riznih krayin svitu u galuzyah morfologiyi sintaksisu semantiki ta interpretaciyi Danij period vidznachivsya aktivnistyu ta entuziazmom Nezvazhayuchi na nizkij tehnologichnij rozvitok sho znachno uskladnyuvav obrobku danih doslidniki ne boyalis zishtovhnutis zi skladnimi zavdannyami yaki postavali pered nimi u cej period Druga faza kinec 1960 h kinec 1970 h red Druga faza rozvitku obrobki prirodnoyi movi pripala na kinec 1960 h do kincya 1970 h rokiv ta pov yazana zi shtuchnim intelektom Doslidniki cogo periodu najbilshu uvagu pridilyayut znannyu pro svit ta formuvannyu pevnih znachen u movlenni Pershoyu rannoyu programoyu rozuminnya prirodnoyi movi bula SHRDLU rozroblena u 1972 roci Dana programa rozumila veliku kilkist anglomovnih sliv ta mogla robiti pevni visnovki Ce bulo velikim dosyagnennyam u doslidzhennyah shtuchnogo intelektu prote programi takogo tipu stikalis iz situaciyami realnogo svitu z yakimi yim vporatis ne vdavalos Tretya faza kinec 1970 h kinec 1980 h red Tretya faza rozvitku obrobki prirodnoyi movi trivala z kincya 1970 h ta do kincya 1980 h rokiv V nij tisno pereplelis taki galuzi yak shtuchnij intelekt ta semantika Zastosuvannya shtuchnogo intelektu v obrobci prirodnoyi movi vimagalo rozrobki obchislyuvalnoyi gramatiki V praktichnomu sensi lingvisti rozrobili cilu nizku gramatichnih tipiv napriklad funkcionalnij ta kategorialnij yaki buli oriyentovani na obchislyuvanist Danij period takozh harakterizuyetsya strimkim rozvitkom logichnogo programuvannya z metoyu navchannya program obrobki pevnih tekstiv Chetverta faza 1990 ti red Chetverta faza pochalas u 1990 h rokah na pochatku yakoyi zdobuv populyarnist leksichnij pidhid do gramatiki Odne z providnih misc v obrobci prirodnoyi movi zajmav statistichnij pidhid yakij dozvolyav teper ne prosto analizuvati dani ale j spravdi zastosovuvati cej metod dlya obrobki prirodnoyi movi Ostannye desyatilittya 20 go stolittya harakterizuvalos zastosuvannyam metodiki sproshennya tekstiv dlya viokremlennya vazhlivih odinic z pevnogo potoku informaciyi Rozvitok obrobki prirodnoyi movi v XXI stolittired Na pochatku 2023 roku vcheni Stenfordskogo universitetu Kaliforniya SShA vstanovili novij rekord roboti movnogo interfejsu mozok komp yuter Brain Computer Interface VSI dosyagnuvshi rekordno visokogo pokaznika dekoduvannya movi Novij rekord polyagaye v tomu sho shvidkist dekoduvannya movi shtuchnogo intelektu dosyagla 62 slova na hvilinu sho v 3 4 razi shvidshe za poperednij rekord dlya bud yakogo vidu BCI 4 Zadachi ta obmezhennyared Rozuminnya prirodnoyi movi inodi vvazhayut AI povnoyu zadacheyu tomu sho rozpiznavannya zhivoyi movi potrebuye velicheznih znan sistemi pro navkolishnye seredovishe ta mozhlivosti vzayemodiyati z nim Same oznachennya zmistu slova rozumiti odna z golovnih zadach shtuchnogo intelektu V nash chas znachnu rol u virishenni zadach z obrobki prirodnomovnih danih vidigrayut ontologiyi napriklad WordNet UWN U procesi doslidzhennya obrobki prirodnoyi movi bulo dosyagnuto znachnih rezultativ sered yakih rozrobka potuzhnih leksikografichnih sistem program dlya mashinnogo perekladu elektronnih slovnikiv ta in Odnak isnuye problema yaka dosi ne znajshla svogo virishennya vona korinitsya u samij prirodi lyudskoyi movi Problema rozuminnya lyudskogo movlennya polyagaye same u jogo neodnoznachnosti Mozhna vidiliti nastupni vidi neodnoznachnostej 5 Sintaksichna neodnoznachnist u prisliv yi Chas ne kin ne pidzhenesh i ne zupinish dlya obrobki prirodnoyi movi bude absolyutno neyasnim te pro sho same jdetsya u rechenni pro konya chi pro chas Smislova neodnoznachnist u pitanni De znajti klyuch do togo zamku slovo zamok mozhe mati dva absolyutno rizni znachennya zvazhayuchi na postavlenij nagolos Vidminkova neodnoznachnist u frazah Usi buli shvilovani pered koncertom ta Ne treba davati pered slovo pered oznachaye chas abo misce sho absolyutno zminyuye sens frazi Referencijna neodnoznachnist u frazi Vidkrij polichku ta distan mokru parasolku ya hochu yiyi visushiti zajmennik yiyi za smislovim znachennyam matime vidnoshennya do mokroyi parasolki prote dlya mashini u yakoyi povnistyu vidsutnye rozuminnya realnosti danij zajmennik vidnositimetsya yak do polichki tak i do parasolki Odnim iz viklikiv yakij vinikaye u procesi obrobki prirodnoyi movi mozhna vvazhati problemu sinonimiyi v rezultati yakoyi odne ponyattya mozhe buti virazhenim dekilkoma riznimi slovami Yak naslidok relevantni dokumenti v yakih vikoristano sinonimi ponyat sho bulo vkazano koristuvachem u zapiti mozhe buti ne viznacheno sistemoyu Vpliv visheperelichenih yavish ye osoblivo vidchutnim pri stvorenni sistem mashinnogo perekladu Problema polyagaye u skladnosti vstanovlennya konkretnogo vidobrazhennya dijsnoyi semantiko sintaksichnoyi strukturi rechennya u jogo vnutrishnye logichne uyavlennya yake avtomatichno generuyetsya sistemoyu 6 Rozv yazannya takih tipiv neodnoznachnostej mozhlive za dopomogoyu vvedennya dodatkovih znachen yaki zbilshat znannya programi pro tu chi inshu galuz Sogodni program yaki rozumiyut usi tipi neodnoznachnostej u velikomu spektri galuzej ne isnuye prote ye programi sho mozhut korektno reaguvati na neodnoznachnosti u duzhe vuzkih sferah Golovni zavdannyared Vidobuvannya danih vivchennya danih poshuk zv yazkiv ta zakonomirnostej mizh nimi Sintez movlennya ozvuchennya prochitannya tekstu dokument povidomlennya i t d golosom yakij ye nablizhenim do prirodnogo Rozpiznavannya movi vivedennya rozpiznavannya tekstu z kartinok vidskanovanih dokumentiv abo fajliv u PDF formati Syudi zh vhodit rozpiznavannya movlennya produkovane lyudskim golosom Generuvannya prirodnoyi movi konvertuvannya komp yuternih danih u prirodnu movu lyudini Mashinnij pereklad avtomatichnij pereklad z odniyeyi lyudskoyi movi na inshu Dane zavdannya ye nadzvichajno skladnim adzhe mashina ne volodiye timi znannyami yakimi volodiye lyudina sho robit yih rozuminnya tih chi inshih fraz absolyutno riznim Pitalno vidpovidalni sistemi vidpovidi na pitannya postavleni lyudskoyu movoyu Zazvichaj pitannya ye konkretizovanimi napriklad De znahoditsya Ejfeleva Vezha prote isnuyut pitannya na yaki nemaye konkretnoyi vidpovidi napriklad Chomu vsi lyudi rizni sho robit dane zavdannya nadzvichajno skladnim dlya vikonannya Rozpiznavannya viznachennya temi podil tekstu na chastini z podalshim viznachennyam providnoyi temi dlya kozhnoyi z nih Informacijnij poshuk poshuk rozpiznavannya ta vidobuvannya informaciyi Dobuvannya danih otrimannya semantichnoyi informaciyi z tekstu Otrimannya zv yazkiv viznachennya vidnosin mizh ob yektami u pevnomu shmatku tekstu napriklad hto z kim pracyuye Sproshennya tekstu 7 zmina rozshirennya abo insha obrobka informaciyi dlya sproshennya strukturi abo gramatiki tekstu zi zberezhennyam osnovnoyi dumki Rozv yazannya leksichnoyi bagatomanitnosti nadannya spisku mozhlivih znachen konkretnogo bagatoznachnogo slova sered yakih mozhna vibrati najbilsh pidhodyashe vidpovidno do kontekstu Rozpiznavannya abreviatur ta zagolovkiv Detektuvannya okremih lingvistichnih odinic Morfologichna dekompoziciya peretvorennya okremih terminiv napriklad medichnih abo tehnichnih u zrozumilu formu Pidhodi do vikonannya zavdanred Statistichnij pidhidred V osnovi statistichnogo pidhodu do obrobki prirodnoyi movi lezhit pripushennya sho zmist tekstu mozhe buti viznacheno za najuzhivanishimi slovami Osnovnim zavdannyam danogo pidhodu ye viznachennya kilkosti povtoren konkretnogo slova ta slovospoluchen v teksti 8 Latentno semantichnij pidhid ye riznovidom statistichnogo metodu ta bazuyetsya na ideyi sho sukupnist usih kontekstiv u yakih zustrichayetsya abo ne zustrichayetsya dane slovo viznachaye mnozhinu vzayemnih obmezhen dlya viyavlennya shozhostej u znachennyah sliv Osnovna problema z yakoyu stikayutsya statistichni pidhodi polyagaye v rozglyadi tekstu yak naboru sliv bez smislovogo zv yazku Lingvistichnij pidhidred Lingvistichnij pidhid do obrobki prirodnoyi movi skladayetsya z chotiroh rivniv grafematichnogo morfologichnogo sintaksichnogo ta semantichnogo 9 Pershij riven polyagaye u vidilenni okremih elementiv tekstu dokumentu napriklad rozdiliv abzaciv rechen i t d Drugij riven polyagaye u viznachenni morfologichnih harakteristik okremogo slova Tretij riven vidpovidaye za viznachennya sintaksichnoyi zalezhnosti sliv u rechennyah Ostannij riven pov yazanij zi smislovim rozuminnyam tekstu sho vklyuchaye rozrobki u sferi shtuchnogo intelektu Doslidnicki dosyagnennya u cij sferi ye duzhe obmezhenimi u zv yazku zi skladnistyu lyudskoyi movi Simvolichnij pidhidred Simvolichnij pidhid do obrobki prirodnoyi movi zdijsnyuye glibinnij analiz lingvistichnih yavish ta bazuyetsya na yavnomu predstavlenni znan sho zdijsnyuyetsya shlyahom vikoristannya dobre doslidzhenih shem predstavlennya znan ta algoritmiv sho pracyuyut z nimi 10 Dzherelom znannya pro movu mozhut vistupati slovniki formuli ta pravila rozrobleni lyudmi Konnektivistskij pidhidred Danij metod obrobki prirodnoyi movi vidpovidaye za obrobku zagalnih modelej z vikoristannyam konkretnih prikladiv movnih yavish Najbilsh znachusha vidminnist konnektivistskogo pidhodu vid inshih statistichnih metodiv polyagaye u poyednanni statistichnih znan ta riznih teorij uyavlen sho dozvolyayut pracyuvati z logichnimi visnovkami ta transformaciyeyu logichnih formul Metod dopomizhnih vektorivred Diferencijnij metod mashinnogo navchannya sho dopomagaye provesti klasifikaciyu sliv za kategoriyami Danij metod pobudovanij na pevnij mnozhini vlastivostej Prihovana markovska modelred Ce taka grafichna sistema u yakij kozhna vershina poznachaye vipadkovu zminnu sho mozhe nabuvati bud yakogo znachennya z pevnimi jmovirnostyami mizh dekilkoma stanami porodzhuyuchi pri comu odin z dekilkoh mozhlivih vihidnih simvoliv z kozhnim perehodom Mnozhina vsih mozhlivih staniv ta unikalnih simvoliv mozhe buti velikoyu Mi mozhemo bachiti vihidni dani prote pochatkovi stani sistemi ye prihovanimi Umovni vipadkovi polyared Rozdilna diferencijna model yaka formuye logistichnu regresiyu dlya poslidovnosti danih Vikoristovuyetsya dlya peredbachennya stanu zminnoyi sho bazuyetsya na sposterezhenij zminnij N gramni modelired Model pobudovana na poslidovnosti z n elementiv rechen sliv bukv zvukiv i t d Model dozvolyaye rozrahuvati jmovirnist poyavi bud yakogo elementa za vidomih jmovirnostej poyavi takih poperednih elementiv Taka model zvoditsya do skinchennoyi mnozhini jmovirnostej kozhnu z yakih mozhe buti ocineno pislya obchislennya povtoryuvanosti vidpovidnih n gram 11 Rivni obrobki prirodnoyi movired Zrozumiti sho zh taki vidbuvayetsya v sistemi obrobki prirodnoyi movi mozhna zavdyaki rivnyam movnoyi strukturi Znachennya movlennya lyudini peredayetsya kozhnim rivnem movi Dlya togo shob obrobka prirodnoyi movi bula maksimalno efektivnoyu potribno shob yiyi sistema vklyuchala usi movni rivni Obrobka prirodnoyi movi vikonuyetsya u shist rivniv 12 Fonologichnij analiz polyagaye u doslidzhenni organizaciyi ta interpretaciyi zvukiv movlennya u movi Bazovimi pravilami fonologichnogo analizu vvazhayutsya fonetichni fonemni ta prosodichni Morfologichnij analiz mozhna viznachiti yak aspekt doslidzhennya sho polyagaye u identifikaciyi analizi ta opisi strukturi abo form sliv u movi Leksichnij analiz polyagaye u podili tekstu na rozdili abzaci rechennya ta abo slova Sintaksichnij analiz polyagaye v analizi sliv u rechenni zadlya rozuminnya jogo gramatichnoyi strukturi Slova peretvoryuyutsya v strukturi sho pokazuyut yakij zv yazok isnuye mizh slovami Okremi spoluchennya sliv mozhe buti vikonano u zv yazku z porushennyam gramatichnih pravil abo pravil kombinuvannya sliv u movi Semantichnij analiz maye spravu zi znachennyami sliv fraz ta rechen u movi Vin spriyaye viznachennyu mozhlivih smisliv rechennya u konteksti Pragmatichnij analiz ye aspektom doslidzhennya sho dozvolyaye zrozumiti yak kombinuyutsya rechennya z riznimi kontekstami dlya formuvannya abzaciv tekstiv abo dialogiv Pragmatichnij analiz polyagaye v interpretaciyi okremih rechen u vidpovidnih dlya nih kontekstah Div takozhred Gliboke navchannya Informacijnij poshuk Korektura Latentno semantichnij analiz Matematichna lingvistika Pitalno vidpovidna sistema Transformer arhitektura glibokogo navchannya Primitkired Liddy E D 2001 Natural Language Processing In Encyclopedia of Library and Information Science 2nd Ed NY Marcel Decker Inc P 1 Ivanov O V Klasichnij kontent analiz ta analiz tekstu terminologichni ta metodologichni vidminnosti Ivanov Oleg Valerijovich Visnik Harkivskogo nacionalnogo universitetu imeni V N Karazina Harkiv Vidavnichij centr HNU imeni V N Karazina 2013 1045 S 72 Karen S Jones Natural language processing a historical review Cambridge Computer Laboratory University of Cambridge 2001 P 2 Shtuchnij intelekt postaviv svitovij rekord u zchituvanni lyudskih dumok 23 01 2023 11 40 am Istoriya kompyutera chernykh net Arhiv originalu za 8 grudnya 2015 Procitovano 30 listopada 2015 Anisimov A V Marchenko A A Sistema obrabotki tekstov na estestvennom yazyke Shtuchnij intelekt 2002 4 S 157 Demokratizaciya pismovoyi komunikaciyi dlya rozvitku vlasnih mozhlivostej NLG 21 06 2022 Slyusar V I 2020 Primenenie torcevogo proizvedeniya matric v zadachah obrabotki estestvennogo yazyka PDF Nejromerezhni tehnologiyi ta yih zastosuvannya NMTiZ 2020 zbirnik naukovih prac XIX Mizhnarodnoyi naukovoyi konferenciyi Nejromerezhni tehnologiyi ta yih zastosuvannya NMTiZ 2020 Kramatorsk Donbaska derzhavna mashinobudivna akademiya 2020 s 156 162 Arhiv originalu PDF za 25 sichnya 2021 Procitovano 12 grudnya 2020 Dikovickij V V Shishaev M G Obrabotka tekstov estestvennogo yazyka v modelyah poiskovyh sistem Sbornik nauchnyh trudov 2010 S 30 Liddy E D 2001 Natural Language Processing In Encyclopedia of Library and Information Science 2nd Ed NY Marcel Decker Inc P 10 Babenko T V Sushko S O Pro entropiyu ukrayinskoyi movi Naukovo praktichnij zhurnal Zahist informaciyi 2012 3 S 105 Olaronke G Iroju Janet O Olaleke A Systematic Review in Natural Language Processing in Healthcare I J Information Technology and Computer Science 2015 8 P 45 Otrimano z https uk wikipedia org w index php title Obrobka prirodnoyi movi amp oldid 41743012