Розпізнавання іменованих сутностей (РІС) (також відоме як ідентифікація об'єктної сутності, фрагментація об'єктної сутності та видобуток об'єктної сутності) — це підзадача видобування інформації, яка намагається знайти і класифікувати іменовані сутності в неструктурованому тексті в заздалегідь визначені категорії, такі як імена людей, організації, місця, [en], час, кількості, грошові значення, відсотки тощо.
Більшість досліджень у системах РІС було структуровано як отримання не коментованого блоку тексту, такого як:
Джим купив 300 акцій корпорації Acme у 2006.
І створення коментованого блоку тексту, який виділяє імена об'єктів:
[Джим]Особа купив 300 акцій [корпорації Acme]Організація у [2006]Час.
У цьому прикладі було виявлено та класифіковано ім'я особи, що складається з одного токену, назва компанії з двох токенів та часового виразу.
Сучасні системи РІС для англійської мови показують продуктивність близьку до людської. Наприклад, найкраща система, що коментувала [en], набрала 93,39 % оцінки F1, а анотатори — 97,60 % і 96,95 %.
Платформи розпізнавання іменованих сутностей
До визначних платформ РІС належать:
- [en] підтримує РІС для багатьох мов і доменів, які використовуються через графічний інтерфейс і Java API.
- OpenNLP містить в собі засноване на правилах і статистичне розпізнавання іменованих об'єктів.
- SpaCy має швидке статистичне РІС, а також візуалізатор іменованих сутностей з відкритим вихідним кодом.
Визначення проблеми
У виразі іменована сутність, слово «іменована» обмежує завдання для тих сутностей, для яких можна поставити у відповідність один або кілька рядків, таких як слова або фрази, послідовно для деяких референтів. Це тісно пов'язане з [en], визначеними Кріпке, хоча на практиці РІС має справу з багатьма іменами та референтами, які не є філософськи «жорсткими». Наприклад, автомобільна компанія, створена Генрі Фордом в 1903 році, може називатися Ford або Ford Motor Company, хоча «Ford» також може посилатися на багато інших суб'єктів (див. Ford). Жорсткі позначення включають власні імена, а також назви певних біологічних видів і речовин, за виключенням займенників (наприклад, «він», див. вирішення кореферентності), описів референтів за їх властивостями (див. також [en]), а також назв видів речей, на відміну від об'єктів (наприклад, «Банк»).
Повне розпізнавання іменованої сутності часто розбивається, концептуально і, можливо, також в реалізації, як дві різні задачі: виявлення імен та класифікація їх по типу сутностей (наприклад, особи, організації, місця та інші). Перша фаза, як правило, зводиться до проблеми сегментації: імена визначаються як суміжні проміжки токенів, без вкладеності, таким чином «Банк Америки» є єдиним ім'ям, попри те, що всередині цього імені підрядок «Америки» є іншим ім'ям. Задача сегментування є формально подібною до поверхнево-синтаксичного аналізу. Другий етап вимагає вибору онтології, за допомогою якої можна організувати категорії речей.
[en] та деякі числові вирази (наприклад, гроші, відсотки тощо) також можуть розглядатися як іменовані сутності в контексті завдання РІС. Хоча деякі приклади таких типів є гарними прикладами жорстких позначень (наприклад, 2001 рік), є також багато недійсних (наприклад, я беру відпустки в «червні»). У першому випадку 2001 рік відноситься до 2001-го року григоріанського календаря. У другому випадку місяць червень може стосуватися місяця невизначеного року (минулий червень, наступний червень, кожен червень тощо). Можна стверджувати, що визначення іменованої сутності в таких випадках втрачається з практичних причин. Таким чином, термін іменована сутність не є строгим і часто має пояснюватися в контексті, в якому він використовується.
У літературі були запропоновані певні ієрархії типів іменованих сутностей. Категорії [en], запропоновані в 2002 році, використовуються для питально-відповідної системи і складаються з 29 типів і 64 підтипів. Розширена ієрархія Секіна, запропонована в 2002 році, складається з 200 підтипів. Зовсім недавно, в 2011 році Ріттер використовував ієрархію на основі загальних типів об'єктів Freebase в новаторських експериментах РІС через соціальні медіа.
Формальна оцінка
Для оцінки якості результату системи РІС було визначено декілька заходів. Поки що точність на рівні токена є єдиною з можливістю, вона страждає від двох проблем: переважна більшість токенів у реальному тексті не є частиною імен сутностей, як вони зазвичай визначаються, тому точність основної лінії (завжди передбачати «не об'єктна сутність») екстравагантно високий, зазвичай > 90 %. Також неправильний прогноз повного проміжку назви об'єкта не карається належним чином (пошук лише імені особи, коли її прізвище стоїть одразу після імені, оцінюється як ½ точності).
На академічних конференціях, таких як CoNLL, варіант оцінки F1 був визначений наступним чином:
- Влучність — це кількість передбачуваних назв об'єкта, які вирівнюються точно з проміжками в золотого стандарту оцінки даних. Тобто, коли [Особа Ганс] [Особа Блік] передбачено, але було потрібно [Особа Ганс Блік], влучність передбаченого імені дорівнює нулю. Влучність потім усереднюється для всіх передбачених імен об'єктів.
- Повнота — аналогічним чином кількість імен у золотому стандарті, які з'являються в точно такому ж місці в прогнозах.
- F1 — це середнє гармонійне значення цих двох.
З визначення вище випливає, що будь-яке передбачення, яке пропускає один токен, містить в собі помилковий токен, або має неправильний клас, є жорсткою помилкою і не сприяє ані влучності, ані повноті.
Запропоновано моделі оцінювання, що базуються на узгодженні токена з токеном. Такі моделі здатні обробляти також збіги, які частково перекриваються, але повністю оцінювати тільки точні збіги. Вони дозволяють більш тонку оцінку і порівняння екстракційних систем, враховуючи також ступінь невідповідності в неточних прогнозах.
Підходи
Системи РІС були створені з використанням лінгвістичних методів граматики, а також статистичних моделей, таких як машинне навчання. Системи граматики, створені вручну, зазвичай отримують більшу влучність, але ціною меншої повноти і місяцями роботи досвідчених лінгвістів. Статистичні системи РІС зазвичай вимагають великого обсягу вручну анотованих навчальних даних. Було запропоновано напівкеровані підходи, щоб уникнути частини зусиль анотації.
Багато різних типів класифікаторів були використані для виконання РІС з машинним навчанням, причому умовні випадкові поля є типовим вибором.
Проблеми з доменами
Дослідження показують, що навіть найсучасніші системи РІС є крихкими, що означає, що системи РІС, розроблені для одного домену, зазвичай не працюють добре в інших областях. Значні зусилля приділяються налаштуванню систем РІС для успішної роботи в новому домені; це справедливо як для систем, заснованих на правилах, так і для статистичних систем.
Рання робота в системах РІС у 1990-х роках була спрямована, насамперед, на видобуток інформації з журналістських статей. Потім увагу звернулося на обробку військових відправлень і звітів. Пізніші етапи оцінки [en] також включали кілька типів неформальних текстових стилів, таких як блоги та текстові транскрипції з телефонних розмов. Починаючи з 1998 року, існує велика зацікавленість у ідентифікації сутностей у молекулярній біології, біоінформатиці та обробці природних мов. Найбільш поширеним об'єктом інтересу в цьому домені були назви генів і генних продуктів. Також існує значний інтерес до розпізнавання хімічних об'єктів та наркотиків у контексті конкурсу CHEMDNER, в якому беруть участь 27 команд.
Сучасні виклики та дослідження
Незважаючи на високий показник F1, що міститься в наборі даних MUC-7, проблема розпізнавання іменованих сутностей ще далеко не вирішена. Основні зусилля спрямовані на скорочення праці з анотаціями шляхом використання напівкерованого навчання, надійної роботи в різних областях і масштабування до дрібнозернистих типів об'єктів. Протягом останніх років багато проектів перейшли до краудсорсингу, що є перспективним рішенням, яке дозволить отримати сукупність якісних людських суджень для таких підходів розв'язання РІС, як кероване та напівкероване навчання. Іншою складною задачею є розробка моделей для роботи з мовними складними контекстами, такими як Twitter і пошукові запити.
Є дослідники, які зробили деякі порівняння про показники РІС з різних статистичних моделей, таких як ПММ (Прихована марковська модель), МЕ ([en]), і УВП (Умовне випадкове поле) і набори функцій. Деякі дослідники нещодавно запропонували напівкеровану модель навчання на основі графів для задач, пов'язаних з мовними специфічними РІС.
Нещодавно з'явилася задача ідентифікації «важливих виразів» у тексті та перехресного їх з'єднання з Вікіпедією. Нижче наведено приклад виведення системи Вікіфікації:
<ENTITY url="http://en.wikipedia.org/wiki/Michael_I._Jordan"> Michael Jordan </ENTITY> is a professor at <ENTITY url="http://en.wikipedia.org/wiki/University_of_California,_Berkeley"> Berkeley </ENTITY>
Ще одним напрямком, що прогресує, але залишається складним, є застосування РІС до Твіттера та інших мікроблогів.
Див. також
- Вирішення кореферентності
- Зв'язування іменованих сутностей (так звана нормалізація об'єктної сутності, неоднозначність об'єкта)
- Витяг інформації
- Видобуток знань
- [en]
- Ономастика
- [en]
- [en]
Примітки
- Elaine Marsh, Dennis Perzanowski, «MUC-7 Evaluation of IE Technology: Overview of Results», 29 April 1998 PDF [ 19 серпня 2018 у Wayback Machine.]
- . Архів оригіналу за 19 серпня 2018. Процитовано 12 травня 2019.
- Kripke, Saul (1971). M.K. Munitz (ред.). Identity and Necessity. New York: New York University Press. с. 135—64.
- LaPorte, Joseph, , архів оригіналу за 12 травня 2019, процитовано 12 травня 2019
- Nadeau, David; Sekine, Satoshi (2007). (PDF). Lingvisticae Investigationes. Архів оригіналу (PDF) за 12 травня 2019. Процитовано 12 травня 2019.
- Carreras, Xavier; Màrquez, Lluís; Padró, Lluís (2003). A simple named entity extractor using AdaBoost. CoNLL.
- Tjong Kim Sang, Erik F.; De Meulder, Fien (2003). . CoNLL. Архів оригіналу за 16 березня 2019. Процитовано 12 травня 2019.
- Named Entity Definition [ 31 липня 2019 у Wayback Machine.]. Webknox.com. Retrieved on 2013-07-21.
- Brunstein, Ada. . LDC Catalog. Linguistic Data Consortium. Архів оригіналу за 16 квітня 2016. Процитовано 21 липня 2013.
- Sekine's Extended Named Entity Hierarchy [ 9 лютого 2019 у Wayback Machine.]. Nlp.cs.nyu.edu. Retrieved on 2013-07-21.
- Ritter, A.; Clark, S.; Mausam; Etzioni., O. (2011). (PDF). Proc. Empirical Methods in Natural Language Processing. Архів оригіналу (PDF) за 19 серпня 2018. Процитовано 12 травня 2019.
- Esuli, Andrea; Sebastiani, Fabrizio (2010). (PDF). Cross-Language Evaluation Forum (CLEF). с. 100—111. Архів оригіналу (PDF) за 28 серпня 2019. Процитовано 12 травня 2019.
- Kapetanios, Epaminondas; Tatar, Doina; Sacarea, Christian (14 листопада 2013). Natural Language Processing: Semantic Aspects (англ.). CRC Press. с. 298. ISBN .
- Nothman, Joel та ін. (2013). (Learning multilingual named entity recognition from Wikipedia). Artificial Intelligence. 194: 151—175. doi:10.1016/j.artint.2012.03.006.
- Jenny Rose Finkel; Trond Grenager; Christopher Manning (2005). (PDF). 43rd Annual Meeting of the . с. 363—370. Архів оригіналу (PDF) за 29 листопада 2018. Процитовано 13 травня 2019.
- Poibeau, Thierry; Kosseim, Leila (2001). Proper Name Extraction from Non-Journalistic Texts. Language and Computers. 37 (1): 144—157.
- Krallinger, M; Leitner, F; Rabal, O; Vazquez, M; Oyarzabal, J; Valencia, A. Overview of the chemical compound and drug name recognition (CHEMDNER) task. Proceedings of the Fourth BioCreative Challenge Evaluation Workshop vol. 2. с. 6—37.
- Lin, Dekang; Wu, Xiaoyun (2009). (PDF). Annual Meeting of the and IJCNLP. с. 1030—1038. Архів оригіналу (PDF) за 19 серпня 2018. Процитовано 13 травня 2019.
- Turian, J., Ratinov, L., & Bengio, Y. (2010, July). Word representations: a simple and general method for semi-supervised learning. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (pp. 384—394). Association for Computational Linguistics. PDF [ 26 квітня 2012 у Wayback Machine.]
- Ratinov, L., & Roth, D. (2009, June). Design challenges and misconceptions in named entity recognition. [ 26 квітня 2012 у Wayback Machine.] In Proceedings of the Thirteenth Conference on Computational Natural Language Learning (pp. 147—155). Association for Computational Linguistics.
- (PDF). Архів оригіналу (PDF) за 13 червня 2010. Процитовано 13 травня 2019.
- Sekine's Extended Named Entity Hierarchy [ 9 лютого 2019 у Wayback Machine.]. Nlp.cs.nyu.edu. Retrieved on 2013-07-21.
- Fine-Grained Named Entity Recognition Using Conditional Random Fields for Question Answering.[недоступне посилання]
- . Архів оригіналу за 13 травня 2019. Процитовано 13 травня 2019.
- Eiselt, Andreas; Figueroa, Alejandro (2013). . IJCNLP. с. 829—833. Архів оригіналу за 19 серпня 2018. Процитовано 13 травня 2019.
- Han, Li-Feng Aaron, Wong, Fai, Chao, Lidia Sam. (2013). Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics. Proceeding of International Conference of Language Processing and Intelligent Information Systems. M.A. Klopotek et al. (Eds.): IIS 2013, LNCS Vol. 7912, pp. 57–68 [1] [ 19 листопада 2018 у Wayback Machine.]
- Han, Li-Feng Aaron, Wong, Zeng, Xiaodong, Derek Fai, Chao, Lidia Sam. (2015). Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model. In Proceedings of SIGHAN workshop in ACL-IJCNLP. 2015. [2] [ 19 серпня 2018 у Wayback Machine.]
- Linking Documents to Encyclopedic Knowledge.
- (PDF). Архів оригіналу (PDF) за 25 січня 2019. Процитовано 13 травня 2019.
- (PDF). Архів оригіналу (PDF) за 26 квітня 2012. Процитовано 13 травня 2019.
- Derczynski, Leon and Diana Maynard, Giuseppe Rizzo, Marieke van Erp, Genevieve Gorrell, Raphael Troncy, Johann Petrak, and Kalian Botcheva (2014). «Analysis of named entity recognition and linking for tweets». Information Processing and Management 51(2): pages 32-49.
Посилання
- Глибовець А.М. Автоматизований пошук іменованих сутностей у нерозмічених текстах українською мовою // Штучний інтелект. — 2017. — № 2. — С. 45-51.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Rozpiznavannya imenovanih sutnostej RIS takozh vidome yak identifikaciya ob yektnoyi sutnosti fragmentaciya ob yektnoyi sutnosti ta vidobutok ob yektnoyi sutnosti ce pidzadacha vidobuvannya informaciyi yaka namagayetsya znajti i klasifikuvati imenovani sutnosti v nestrukturovanomu teksti v zazdalegid viznacheni kategoriyi taki yak imena lyudej organizaciyi miscya en chas kilkosti groshovi znachennya vidsotki tosho Bilshist doslidzhen u sistemah RIS bulo strukturovano yak otrimannya ne komentovanogo bloku tekstu takogo yak Dzhim kupiv 300 akcij korporaciyi Acme u 2006 I stvorennya komentovanogo bloku tekstu yakij vidilyaye imena ob yektiv Dzhim Osoba kupiv 300 akcij korporaciyi Acme Organizaciya u 2006 Chas U comu prikladi bulo viyavleno ta klasifikovano im ya osobi sho skladayetsya z odnogo tokenu nazva kompaniyi z dvoh tokeniv ta chasovogo virazu Suchasni sistemi RIS dlya anglijskoyi movi pokazuyut produktivnist blizku do lyudskoyi Napriklad najkrasha sistema sho komentuvala en nabrala 93 39 ocinki F1 a anotatori 97 60 i 96 95 Platformi rozpiznavannya imenovanih sutnostejDo viznachnih platform RIS nalezhat en pidtrimuye RIS dlya bagatoh mov i domeniv yaki vikoristovuyutsya cherez grafichnij interfejs i Java API OpenNLP mistit v sobi zasnovane na pravilah i statistichne rozpiznavannya imenovanih ob yektiv SpaCy maye shvidke statistichne RIS a takozh vizualizator imenovanih sutnostej z vidkritim vihidnim kodom Viznachennya problemiU virazi imenovana sutnist slovo imenovana obmezhuye zavdannya dlya tih sutnostej dlya yakih mozhna postaviti u vidpovidnist odin abo kilka ryadkiv takih yak slova abo frazi poslidovno dlya deyakih referentiv Ce tisno pov yazane z en viznachenimi Kripke hocha na praktici RIS maye spravu z bagatma imenami ta referentami yaki ne ye filosofski zhorstkimi Napriklad avtomobilna kompaniya stvorena Genri Fordom v 1903 roci mozhe nazivatisya Ford abo Ford Motor Company hocha Ford takozh mozhe posilatisya na bagato inshih sub yektiv div Ford Zhorstki poznachennya vklyuchayut vlasni imena a takozh nazvi pevnih biologichnih vidiv i rechovin za viklyuchennyam zajmennikiv napriklad vin div virishennya koreferentnosti opisiv referentiv za yih vlastivostyami div takozh en a takozh nazv vidiv rechej na vidminu vid ob yektiv napriklad Bank Povne rozpiznavannya imenovanoyi sutnosti chasto rozbivayetsya konceptualno i mozhlivo takozh v realizaciyi yak dvi rizni zadachi viyavlennya imen ta klasifikaciya yih po tipu sutnostej napriklad osobi organizaciyi miscya ta inshi Persha faza yak pravilo zvoditsya do problemi segmentaciyi imena viznachayutsya yak sumizhni promizhki tokeniv bez vkladenosti takim chinom Bank Ameriki ye yedinim im yam popri te sho vseredini cogo imeni pidryadok Ameriki ye inshim im yam Zadacha segmentuvannya ye formalno podibnoyu do poverhnevo sintaksichnogo analizu Drugij etap vimagaye viboru ontologiyi za dopomogoyu yakoyi mozhna organizuvati kategoriyi rechej en ta deyaki chislovi virazi napriklad groshi vidsotki tosho takozh mozhut rozglyadatisya yak imenovani sutnosti v konteksti zavdannya RIS Hocha deyaki prikladi takih tipiv ye garnimi prikladami zhorstkih poznachen napriklad 2001 rik ye takozh bagato nedijsnih napriklad ya beru vidpustki v chervni U pershomu vipadku 2001 rik vidnositsya do 2001 go roku grigorianskogo kalendarya U drugomu vipadku misyac cherven mozhe stosuvatisya misyacya neviznachenogo roku minulij cherven nastupnij cherven kozhen cherven tosho Mozhna stverdzhuvati sho viznachennya imenovanoyi sutnosti v takih vipadkah vtrachayetsya z praktichnih prichin Takim chinom termin imenovana sutnist ne ye strogim i chasto maye poyasnyuvatisya v konteksti v yakomu vin vikoristovuyetsya U literaturi buli zaproponovani pevni iyerarhiyi tipiv imenovanih sutnostej Kategoriyi en zaproponovani v 2002 roci vikoristovuyutsya dlya pitalno vidpovidnoyi sistemi i skladayutsya z 29 tipiv i 64 pidtipiv Rozshirena iyerarhiya Sekina zaproponovana v 2002 roci skladayetsya z 200 pidtipiv Zovsim nedavno v 2011 roci Ritter vikoristovuvav iyerarhiyu na osnovi zagalnih tipiv ob yektiv Freebase v novatorskih eksperimentah RIS cherez socialni media Formalna ocinka Dlya ocinki yakosti rezultatu sistemi RIS bulo viznacheno dekilka zahodiv Poki sho tochnist na rivni tokena ye yedinoyu z mozhlivistyu vona strazhdaye vid dvoh problem perevazhna bilshist tokeniv u realnomu teksti ne ye chastinoyu imen sutnostej yak voni zazvichaj viznachayutsya tomu tochnist osnovnoyi liniyi zavzhdi peredbachati ne ob yektna sutnist ekstravagantno visokij zazvichaj gt 90 Takozh nepravilnij prognoz povnogo promizhku nazvi ob yekta ne karayetsya nalezhnim chinom poshuk lishe imeni osobi koli yiyi prizvishe stoyit odrazu pislya imeni ocinyuyetsya yak tochnosti Na akademichnih konferenciyah takih yak CoNLL variant ocinki F1 buv viznachenij nastupnim chinom Vluchnist ce kilkist peredbachuvanih nazv ob yekta yaki virivnyuyutsya tochno z promizhkami v zolotogo standartu ocinki danih Tobto koli Osoba Gans Osoba Blik peredbacheno ale bulo potribno Osoba Gans Blik vluchnist peredbachenogo imeni dorivnyuye nulyu Vluchnist potim userednyuyetsya dlya vsih peredbachenih imen ob yektiv Povnota analogichnim chinom kilkist imen u zolotomu standarti yaki z yavlyayutsya v tochno takomu zh misci v prognozah F1 ce serednye garmonijne znachennya cih dvoh Z viznachennya vishe viplivaye sho bud yake peredbachennya yake propuskaye odin token mistit v sobi pomilkovij token abo maye nepravilnij klas ye zhorstkoyu pomilkoyu i ne spriyaye ani vluchnosti ani povnoti Zaproponovano modeli ocinyuvannya sho bazuyutsya na uzgodzhenni tokena z tokenom Taki modeli zdatni obroblyati takozh zbigi yaki chastkovo perekrivayutsya ale povnistyu ocinyuvati tilki tochni zbigi Voni dozvolyayut bilsh tonku ocinku i porivnyannya ekstrakcijnih sistem vrahovuyuchi takozh stupin nevidpovidnosti v netochnih prognozah PidhodiSistemi RIS buli stvoreni z vikoristannyam lingvistichnih metodiv gramatiki a takozh statistichnih modelej takih yak mashinne navchannya Sistemi gramatiki stvoreni vruchnu zazvichaj otrimuyut bilshu vluchnist ale cinoyu menshoyi povnoti i misyacyami roboti dosvidchenih lingvistiv Statistichni sistemi RIS zazvichaj vimagayut velikogo obsyagu vruchnu anotovanih navchalnih danih Bulo zaproponovano napivkerovani pidhodi shob uniknuti chastini zusil anotaciyi Bagato riznih tipiv klasifikatoriv buli vikoristani dlya vikonannya RIS z mashinnim navchannyam prichomu umovni vipadkovi polya ye tipovim viborom Problemi z domenamiDoslidzhennya pokazuyut sho navit najsuchasnishi sistemi RIS ye krihkimi sho oznachaye sho sistemi RIS rozrobleni dlya odnogo domenu zazvichaj ne pracyuyut dobre v inshih oblastyah Znachni zusillya pridilyayutsya nalashtuvannyu sistem RIS dlya uspishnoyi roboti v novomu domeni ce spravedlivo yak dlya sistem zasnovanih na pravilah tak i dlya statistichnih sistem Rannya robota v sistemah RIS u 1990 h rokah bula spryamovana nasampered na vidobutok informaciyi z zhurnalistskih statej Potim uvagu zvernulosya na obrobku vijskovih vidpravlen i zvitiv Piznishi etapi ocinki en takozh vklyuchali kilka tipiv neformalnih tekstovih stiliv takih yak blogi ta tekstovi transkripciyi z telefonnih rozmov Pochinayuchi z 1998 roku isnuye velika zacikavlenist u identifikaciyi sutnostej u molekulyarnij biologiyi bioinformatici ta obrobci prirodnih mov Najbilsh poshirenim ob yektom interesu v comu domeni buli nazvi geniv i gennih produktiv Takozh isnuye znachnij interes do rozpiznavannya himichnih ob yektiv ta narkotikiv u konteksti konkursu CHEMDNER v yakomu berut uchast 27 komand Suchasni vikliki ta doslidzhennyaNezvazhayuchi na visokij pokaznik F1 sho mistitsya v nabori danih MUC 7 problema rozpiznavannya imenovanih sutnostej she daleko ne virishena Osnovni zusillya spryamovani na skorochennya praci z anotaciyami shlyahom vikoristannya napivkerovanogo navchannya nadijnoyi roboti v riznih oblastyah i masshtabuvannya do dribnozernistih tipiv ob yektiv Protyagom ostannih rokiv bagato proektiv perejshli do kraudsorsingu sho ye perspektivnim rishennyam yake dozvolit otrimati sukupnist yakisnih lyudskih sudzhen dlya takih pidhodiv rozv yazannya RIS yak kerovane ta napivkerovane navchannya Inshoyu skladnoyu zadacheyu ye rozrobka modelej dlya roboti z movnimi skladnimi kontekstami takimi yak Twitter i poshukovi zapiti Ye doslidniki yaki zrobili deyaki porivnyannya pro pokazniki RIS z riznih statistichnih modelej takih yak PMM Prihovana markovska model ME en i UVP Umovne vipadkove pole i nabori funkcij Deyaki doslidniki neshodavno zaproponuvali napivkerovanu model navchannya na osnovi grafiv dlya zadach pov yazanih z movnimi specifichnimi RIS Neshodavno z yavilasya zadacha identifikaciyi vazhlivih viraziv u teksti ta perehresnogo yih z yednannya z Vikipediyeyu Nizhche navedeno priklad vivedennya sistemi Vikifikaciyi lt ENTITY url http en wikipedia org wiki Michael I Jordan gt Michael Jordan lt ENTITY gt is a professor at lt ENTITY url http en wikipedia org wiki University of California Berkeley gt Berkeley lt ENTITY gt She odnim napryamkom sho progresuye ale zalishayetsya skladnim ye zastosuvannya RIS do Tvittera ta inshih mikroblogiv Div takozhVirishennya koreferentnosti Zv yazuvannya imenovanih sutnostej tak zvana normalizaciya ob yektnoyi sutnosti neodnoznachnist ob yekta Vityag informaciyi Vidobutok znan en Onomastika en en PrimitkiElaine Marsh Dennis Perzanowski MUC 7 Evaluation of IE Technology Overview of Results 29 April 1998 PDF 19 serpnya 2018 u Wayback Machine Arhiv originalu za 19 serpnya 2018 Procitovano 12 travnya 2019 Kripke Saul 1971 M K Munitz red Identity and Necessity New York New York University Press s 135 64 LaPorte Joseph arhiv originalu za 12 travnya 2019 procitovano 12 travnya 2019 Nadeau David Sekine Satoshi 2007 PDF Lingvisticae Investigationes Arhiv originalu PDF za 12 travnya 2019 Procitovano 12 travnya 2019 Carreras Xavier Marquez Lluis Padro Lluis 2003 A simple named entity extractor using AdaBoost CoNLL Tjong Kim Sang Erik F De Meulder Fien 2003 CoNLL Arhiv originalu za 16 bereznya 2019 Procitovano 12 travnya 2019 Named Entity Definition 31 lipnya 2019 u Wayback Machine Webknox com Retrieved on 2013 07 21 Brunstein Ada LDC Catalog Linguistic Data Consortium Arhiv originalu za 16 kvitnya 2016 Procitovano 21 lipnya 2013 Sekine s Extended Named Entity Hierarchy 9 lyutogo 2019 u Wayback Machine Nlp cs nyu edu Retrieved on 2013 07 21 Ritter A Clark S Mausam Etzioni O 2011 PDF Proc Empirical Methods in Natural Language Processing Arhiv originalu PDF za 19 serpnya 2018 Procitovano 12 travnya 2019 Esuli Andrea Sebastiani Fabrizio 2010 PDF Cross Language Evaluation Forum CLEF s 100 111 Arhiv originalu PDF za 28 serpnya 2019 Procitovano 12 travnya 2019 Kapetanios Epaminondas Tatar Doina Sacarea Christian 14 listopada 2013 Natural Language Processing Semantic Aspects angl CRC Press s 298 ISBN 9781466584969 Nothman Joel ta in 2013 Learning multilingual named entity recognition from Wikipedia Artificial Intelligence 194 151 175 doi 10 1016 j artint 2012 03 006 Jenny Rose Finkel Trond Grenager Christopher Manning 2005 PDF 43rd Annual Meeting of the s 363 370 Arhiv originalu PDF za 29 listopada 2018 Procitovano 13 travnya 2019 Poibeau Thierry Kosseim Leila 2001 Proper Name Extraction from Non Journalistic Texts Language and Computers 37 1 144 157 Krallinger M Leitner F Rabal O Vazquez M Oyarzabal J Valencia A Overview of the chemical compound and drug name recognition CHEMDNER task Proceedings of the Fourth BioCreative Challenge Evaluation Workshop vol 2 s 6 37 Lin Dekang Wu Xiaoyun 2009 PDF Annual Meeting of the and IJCNLP s 1030 1038 Arhiv originalu PDF za 19 serpnya 2018 Procitovano 13 travnya 2019 Turian J Ratinov L amp Bengio Y 2010 July Word representations a simple and general method for semi supervised learning In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics pp 384 394 Association for Computational Linguistics PDF 26 kvitnya 2012 u Wayback Machine Ratinov L amp Roth D 2009 June Design challenges and misconceptions in named entity recognition 26 kvitnya 2012 u Wayback Machine In Proceedings of the Thirteenth Conference on Computational Natural Language Learning pp 147 155 Association for Computational Linguistics PDF Arhiv originalu PDF za 13 chervnya 2010 Procitovano 13 travnya 2019 Sekine s Extended Named Entity Hierarchy 9 lyutogo 2019 u Wayback Machine Nlp cs nyu edu Retrieved on 2013 07 21 Fine Grained Named Entity Recognition Using Conditional Random Fields for Question Answering nedostupne posilannya Arhiv originalu za 13 travnya 2019 Procitovano 13 travnya 2019 Eiselt Andreas Figueroa Alejandro 2013 IJCNLP s 829 833 Arhiv originalu za 19 serpnya 2018 Procitovano 13 travnya 2019 Han Li Feng Aaron Wong Fai Chao Lidia Sam 2013 Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics Proceeding of International Conference of Language Processing and Intelligent Information Systems M A Klopotek et al Eds IIS 2013 LNCS Vol 7912 pp 57 68 1 19 listopada 2018 u Wayback Machine Han Li Feng Aaron Wong Zeng Xiaodong Derek Fai Chao Lidia Sam 2015 Chinese Named Entity Recognition with Graph based Semi supervised Learning Model In Proceedings of SIGHAN workshop in ACL IJCNLP 2015 2 19 serpnya 2018 u Wayback Machine Linking Documents to Encyclopedic Knowledge PDF Arhiv originalu PDF za 25 sichnya 2019 Procitovano 13 travnya 2019 PDF Arhiv originalu PDF za 26 kvitnya 2012 Procitovano 13 travnya 2019 Derczynski Leon and Diana Maynard Giuseppe Rizzo Marieke van Erp Genevieve Gorrell Raphael Troncy Johann Petrak and Kalian Botcheva 2014 Analysis of named entity recognition and linking for tweets Information Processing and Management 51 2 pages 32 49 PosilannyaGlibovec A M Avtomatizovanij poshuk imenovanih sutnostej u nerozmichenih tekstah ukrayinskoyu movoyu Shtuchnij intelekt 2017 2 S 45 51