Видобуток інформації (ВІ, англ. information extraction, IE, рос. извлечение информации) — завдання автоматичного видобутку структурованої інформації з неструктурованих та/або [en] машиночитаних документів та інших джерел в електронному вигляді. У більшості випадків ця діяльність стосується обробки текстів людською мовою за допомогою обробки природної мови (ОПМ, англ. NLP). Останні дії в мультимедіа обробці документів, такі як автоматична анотація та вилучення вмісту із зображень / аудіо / відео / документів, можуть розглядатися як видобуток інформації.
Через складність задачі сучасні підходи до витягування інформації зосереджені на вузько обмежених галузях. Прикладом може слугувати витягування з новинної стрічки звітів про корпоративні злиття, наприклад, позначених формальним відношенням:
ЗлиттяМіж(компанія1, компанія2, дата)
З новин:
«Вчора компанія „Смартленд“ придбала у держави готель „Дніпро“.»
Загальна мета ВІ — дозволити обчислювати раніше неструктуровані дані. Конкретніша мета — за допомогою [en] робити висновки на основі логічного змісту вхідних даних. Структуровані дані — це семантично чітко визначені дані з обраного цільового домену, що інтерпретуються щодо категорії та контексту.
Витягування інформації — це частина загальної великої задачі, яка має справу з розробкою автоматичних методів управління текстом, окрім його передачі, зберігання та відображення. В межах інформаційного пошуку (ІП) розроблено автоматичні методи, як правило, статистичного характеру, для індексування та класифікування великих масивів документів. Іншим додатковим підходом є підхід до обробки природної мови (ОПМ), який розв'язав проблему моделювання обробки людської мови, беручи до уваги розмір завдання. Що стосується складності, ВІ має справу із завданнями між ІП та ОПМ. Що стосується вводу, ВІ припускає існування набору документів, в яких кожен документ створений за шаблоном, тобто описує одну або кілька сутностей, подій способом, подібним до того, що і в інших документах, але з різними деталями. Як приклад, розгляньмо групу статей з новин про латиноамериканський тероризм. Кожна стаття заснована на одному або декількох терористичних актах. Ми також визначаємо для будь-якої задачі шаблон ВІ, який є фреймом (або набором фреймів) для зберігання інформації, що міститься в одному документі. Для прикладу тероризму шаблон повинен містити слоти, що відповідають винуватцю, жертві та зброї, яка використовувалася для здійснення теракту, а також дату, коли сталася подія. Система ВІ для цієї проблеми вимагає «розуміння» статті про атаку лише для того, щоб знайти дані, що відповідають слотам у цьому шаблоні.
Історія
Витягування інформації бере свій початок з кінця 1970-х років, коли тільки починали розробляти методи ОПМ. Однією з перших комерційних систем у середини 80-х років була компанія JASPER, створена для агенції Рейтер компанією Carnegie Group Inc з метою надання фінансових новин у реальному часі фінансовим трейдерам.
Починаючи з 1987 року, розвиток ВІ стимулювала низка конференцій [en]» (MUC). MUC — це конференції-змагання, їх було присвячено таким питанням:
- MUC-1 (1987), MUC-2 (1989): Військово-морські операції.
- MUC-3 (1991), MUC-4 (1992): Тероризм в латиноамериканських країнах.
- MUC-5 (1993): Венчурні операції в галузі мікроелектроніки.
- MUC-6 (1995): Новинні статті про зміни в управлінні компаніями.
- MUC-7 (1998): Звіти про запуски супутників.
Сучасне значення
Сучасне значення ВІ стосується зростаючого обсягу інформації, доступної в неструктурованій формі. Тім Бернерс-Лі, винахідник всесвітньої мережі, називає теперішній Інтернет мережею документів і виступає за те, щоби більша частина вмісту була доступною у вигляді семантичної павутини. Поки це не станеться, Інтернет буде здебільшого складатися з неструктурованих документів, у яких відсутні семантичні метадані. Знання, що містяться в цих документах, можна зробити доступнішими для машинної обробки за допомогою перетворення в реляційну базу даних або розмітки за допомогою тегів XML. Інтелектуальний агент, який стежить за стрічкою новин, вимагає від ВІ перетворення неструктурованих даних у щось, що можливо обґрунтувати. Типовим застосуванням ВІ є сканування набору документів, написаних природною мовою, та заповнення бази даних отриманою інформацією.
Задачі та підзадачі
Застосування витягування інформації до тексту пов'язане з проблемою спрощення тексту та метою створення структурованого уявлення про інформацію, що є у тексті. Загальна мета полягає в тому, щоби створити легший машиночитний текст для обробки речень. До типових завдання та підзадач ВІ належать:
- Заповнення шаблону: Витягування фіксованого набору полів з документа, наприклад, витягнути дані про винних, жертв, час, тощо з газетної статті про теракт.
- Витягування події: Дано документ, виводиться нуль або більше шаблонів подій. Наприклад, у газетній статті можливо описати декілька терактів.
- Заповнення бази знань: Заповнити базу фактів з набору документів. Зазвичай база даних має форму триплетів (сутність1, відношення, сутність2), наприклад (Барак Обама, подружжя, Мішель Обама)
- Розпізнавання іменованих сутностей: розпізнавання відомих імен сутностей (людей або організацій), топонімів, часових виразів та певних типів числових виразів, використовуючи наявні знання про домен або інформацію, витягнуту з інших речень. Зазвичай завдання розпізнавання включає присвоєння унікального ідентифікатора витягнутій сутності. Простішим завданням є виявлення іменованих сутностей, яке спрямоване на виявлення сутностей, без жодних знань про екземпляри сутності. Наприклад, під час обробки речення «М. Сміт любить риболовлю», іменоване виявлення сутності означало б виявлення того, що фраза «М. Сміт» дійсно стосується людини, але без обов'язкового володіння (або використання) будь-яких знань про певного М. Сміта, який є (або «може бути») конкретною особою, про яку йдеться у цьому реченні.
- Кореферентний пошук: виявлення кореферентності та анафоричних зв'язків між текстовими сутностями. У завданнях ВІ це, як правило, обмежується пошуком зв'язків між раніше витягнутими іменованими сутностями. Наприклад, «Новокраматорський машинобудівний завод» та «НКМЗ» це один і той же об'єкт реального світу. Якщо взяти два речення «М. Сміт любить риболовлю. Але він не любить їздити на велосипеді», було б корисно виявити, що «він» це раніше виявлена особа «М. Сміт».
- [en]: виявлення відносин між суб'єктами, таких як:
- ОСОБА працює на ОРГАНІЗАЦІЮ (витягнуто із речення «Микола працює на НКМЗ.»)
- ОСОБА знаходиться в ЛОКАЦІЇ (витягнуто із речення «Микола знаходиться у Краматорську»)
- Напівструктурований витяг інформації, який може стосуватися будь-якого ВІ, який намагається відновити якусь інформаційну структуру, яка була втрачена в результаті публікації, наприклад:
- Витягування таблиці: пошук та витягування таблиць з документів.
- Витягування інформації з таблиці: структуроване витягування інформації з таблиць. Це — складніше завдання, ніж витягування таблиці, оскільки витягування таблиці — це лише перший крок, тоді як розуміння ролей комірок, рядків, стовпців, зв'язування інформації всередині таблиці та розуміння інформації, поданої в таблиці, є додатковою задачею, що є необхідною для витягування інформації з таблиці.
- Витягування коментарів: витягування коментарів із фактичного змісту статті з метою відновлення зв'язку з автором кожного речення.
- Мовний та словниковий аналіз
- Видобування термінології: пошук відповідних термінів для даного корпусу текстів
- Витягування звуку
- Витягування музики на основі шаблону: пошук відповідної характеристики в звуковому сигналі. Наприклад, часові індекси появи перкуторних звуків можуть витягувати для того, щоби представити важливу ритмічну складову музичного твору.
Зверніть увагу, що цей перелік не є вичерпним, і що точний зміст діяльності ВІ не є загальновизнаним. Багато підходів поєднують в собі кілька підзавдань ВІ для досягнення ширшої мети. У ВІ часто використовують машинне навчання, статистичний аналіз та/або обробку природної мови.
Використання у всесвітній павутини
ВІ було у центрі уваги конференцій MUC. Однак розповсюдження Інтернету посилило потребу в розробці систем ВІ, які допомагають людям впоратися з величезною кількістю даних, доступних в Інтернеті. Системи ВІ з онлайн-тексту повинні відповідати вимогам низької вартості, гнучкості у розробці та легкої адаптації до нових доменів. Системи MUC не відповідають цим критеріям. Понад те, лінгвістичний аналіз, проведений для неструктурованого тексту, не використовує теги HTML/XML та формати макетів, які доступні в онлайн-текстах. Як результат, для ВІ в Інтернеті було розроблено інші підходи з використанням [en], які є набором дуже точних правил, що витягують вміст певної сторінки. Ручна розробка обгортки виявилася важким завданням, що вимагає високого рівня знань. Для автоматичного запровадження таких правил використовували методи машинного навчання, керованого або некерованого.
Підходи
Наразі широко прийнято такі стандартні підходи:
- Регулярні вирази (або вкладена група регулярних виразів), які створюють вручну
- Використання класифікаторів
- Породжувальні: наївний баєсів класифікатор
- Розрізнювальні: [en], такі як [en]
- Моделі послідовностей:
- Рекурентна нейронна мережа
- Прихована марковська модель
- Умовна марковська модель / [en]
- Умовні випадкові поля зазвичай використовують разом з ВІ для різноманітних завдань, від витягування інформації з наукових робіт до витягування інструкцій з навігації.
Для ВІ існує багато інших підходів, наприклад, гібридні підходи, що поєднують деякі стандартні підходи, перелічені вище.
Безкоштовне або відкрите програмне забезпечення та послуги
- Загальна архітектура для текстової інженерії (англ. General Architecture for Text Engineering) постачається в комплекті з безкоштовною системою витягування інформації Apache OpenNLP.
- Apache OpenNLP — це набір інструментів машинного навчання Java для обробки природної мови.
- [en] — це автоматична вебслужба витягування інформації від Thomson Reuters (безкоштовна обмежена версія)
- DBpedia Spotlight — це інструмент з відкритим кодом у Java/Scala (і безкоштовна вебслужба), який можливо використовувати для розпізнавання іменованих сутностей та імен.
- Natural Language Toolkit — це набір бібліотек та програм для символьної та статистичної обробки природних мов (ОПМ) для мови програмування Python.
- Див. також втілення умовного випадкового поля
Див. також
Примітки
- FREITAG, DAYNE. Machine Learning for Information Extraction in Informal Domains (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands. Архів оригіналу (PDF) за 22 жовтня 2020. Процитовано 29 травня 2021.
- Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). Automatic Extraction of Facts from Press Releases to Generate News Stories. Proceedings of the third conference on Applied natural language processing -. с. 170—177. CiteSeerX 10.1.1.14.7943. doi:10.3115/974499.974531. S2CID 14746386. Архів оригіналу за 21 серпня 2020. Процитовано 29 травня 2021.
- Cowie, Jim; Wilks, Yorick (1996). Information Extraction (PDF). с. 3. CiteSeerX 10.1.1.61.6480. S2CID 10237124. Архів оригіналу (PDF) за 20 лютого 2019.
- Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008.
- Linked Data - The Story So Far (PDF). Архів оригіналу (PDF) за 12 березня 2019. Процитовано 29 травня 2021.
- Tim Berners-Lee on the next Web. Архів оригіналу за 10 квітня 2011. Процитовано 29 травня 2021.
- , W. Li, C. Niu and T. Cornell, «InfoXtract: A Customizable Intermediate Level Information Extraction Engine», Journal of Natural Language Engineering,[недоступне посилання з 01.09.2020] Cambridge U. Press, 14(1), 2008, pp.33-69.
- Dat Quoc Nguyen and Karin Verspoor (2019). End-to-end neural relation extraction using deep biaffine attention. Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
- Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). A framework for information extraction from tables in biomedical literature. International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55—78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
- Milosevic, Nikola (2018). A multi-layered approach to information extraction from tables in biomedical documents (PDF) (PhD). University of Manchester. Архів оригіналу (PDF) за 11 березня 2022. Процитовано 29 травня 2021.
- Milosevic N, Gregson C, Hernandez R, Nenadic G (June 2016). Disentangling the structure of tables in scientific literature. 21st International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. 21: 162—174. doi:10.1007/978-3-319-41754-7_14. ISBN . Архів оригіналу за 2 червня 2021. Процитовано 29 травня 2021.
- A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals [Архівовано 29 серпня 2017 у Wayback Machine.], Proceedings of WedelMusic, Darmstadt, Germany, 2002.
- Peng, F.; McCallum, A. (2006). Information extraction from research papers using conditional random fields☆. Information Processing & Management. 42 (4): 963. doi:10.1016/j.ipm.2005.09.002.
- Shimizu, Nobuyuki; Hass, Andrew (2006). Extracting Frame-based Knowledge Representation from Route Instructions (PDF). Архів оригіналу (PDF) за 1 вересня 2006. Процитовано 27 березня 2010.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ne plutati z dobuvannya danih data mining Vidobutok informaciyi VI angl information extraction IE ros izvlechenie informacii zavdannya avtomatichnogo vidobutku strukturovanoyi informaciyi z nestrukturovanih ta abo en mashinochitanih dokumentiv ta inshih dzherel v elektronnomu viglyadi U bilshosti vipadkiv cya diyalnist stosuyetsya obrobki tekstiv lyudskoyu movoyu za dopomogoyu obrobki prirodnoyi movi OPM angl NLP Ostanni diyi v multimedia obrobci dokumentiv taki yak avtomatichna anotaciya ta viluchennya vmistu iz zobrazhen audio video dokumentiv mozhut rozglyadatisya yak vidobutok informaciyi Cherez skladnist zadachi suchasni pidhodi do vityaguvannya informaciyi zoseredzheni na vuzko obmezhenih galuzyah Prikladom mozhe sluguvati vityaguvannya z novinnoyi strichki zvitiv pro korporativni zlittya napriklad poznachenih formalnim vidnoshennyam ZlittyaMizh kompaniya1 kompaniya2 data Z novin Vchora kompaniya Smartlend pridbala u derzhavi gotel Dnipro Zagalna meta VI dozvoliti obchislyuvati ranishe nestrukturovani dani Konkretnisha meta za dopomogoyu en robiti visnovki na osnovi logichnogo zmistu vhidnih danih Strukturovani dani ce semantichno chitko viznacheni dani z obranogo cilovogo domenu sho interpretuyutsya shodo kategoriyi ta kontekstu Vityaguvannya informaciyi ce chastina zagalnoyi velikoyi zadachi yaka maye spravu z rozrobkoyu avtomatichnih metodiv upravlinnya tekstom okrim jogo peredachi zberigannya ta vidobrazhennya V mezhah informacijnogo poshuku IP rozrobleno avtomatichni metodi yak pravilo statistichnogo harakteru dlya indeksuvannya ta klasifikuvannya velikih masiviv dokumentiv Inshim dodatkovim pidhodom ye pidhid do obrobki prirodnoyi movi OPM yakij rozv yazav problemu modelyuvannya obrobki lyudskoyi movi beruchi do uvagi rozmir zavdannya Sho stosuyetsya skladnosti VI maye spravu iz zavdannyami mizh IP ta OPM Sho stosuyetsya vvodu VI pripuskaye isnuvannya naboru dokumentiv v yakih kozhen dokument stvorenij za shablonom tobto opisuye odnu abo kilka sutnostej podij sposobom podibnim do togo sho i v inshih dokumentah ale z riznimi detalyami Yak priklad rozglyanmo grupu statej z novin pro latinoamerikanskij terorizm Kozhna stattya zasnovana na odnomu abo dekilkoh teroristichnih aktah Mi takozh viznachayemo dlya bud yakoyi zadachi shablon VI yakij ye frejmom abo naborom frejmiv dlya zberigannya informaciyi sho mistitsya v odnomu dokumenti Dlya prikladu terorizmu shablon povinen mistiti sloti sho vidpovidayut vinuvatcyu zhertvi ta zbroyi yaka vikoristovuvalasya dlya zdijsnennya teraktu a takozh datu koli stalasya podiya Sistema VI dlya ciyeyi problemi vimagaye rozuminnya statti pro ataku lishe dlya togo shob znajti dani sho vidpovidayut slotam u comu shabloni IstoriyaVityaguvannya informaciyi bere svij pochatok z kincya 1970 h rokiv koli tilki pochinali rozroblyati metodi OPM Odniyeyu z pershih komercijnih sistem u seredini 80 h rokiv bula kompaniya JASPER stvorena dlya agenciyi Rejter kompaniyeyu Carnegie Group Inc z metoyu nadannya finansovih novin u realnomu chasi finansovim trejderam Pochinayuchi z 1987 roku rozvitok VI stimulyuvala nizka konferencij en MUC MUC ce konferenciyi zmagannya yih bulo prisvyacheno takim pitannyam MUC 1 1987 MUC 2 1989 Vijskovo morski operaciyi MUC 3 1991 MUC 4 1992 Terorizm v latinoamerikanskih krayinah MUC 5 1993 Venchurni operaciyi v galuzi mikroelektroniki MUC 6 1995 Novinni statti pro zmini v upravlinni kompaniyami MUC 7 1998 Zviti pro zapuski suputnikiv Suchasne znachennyaSuchasne znachennya VI stosuyetsya zrostayuchogo obsyagu informaciyi dostupnoyi v nestrukturovanij formi Tim Berners Li vinahidnik vsesvitnoyi merezhi nazivaye teperishnij Internet merezheyu dokumentiv i vistupaye za te shobi bilsha chastina vmistu bula dostupnoyu u viglyadi semantichnoyi pavutini Poki ce ne stanetsya Internet bude zdebilshogo skladatisya z nestrukturovanih dokumentiv u yakih vidsutni semantichni metadani Znannya sho mistyatsya v cih dokumentah mozhna zrobiti dostupnishimi dlya mashinnoyi obrobki za dopomogoyu peretvorennya v relyacijnu bazu danih abo rozmitki za dopomogoyu tegiv XML Intelektualnij agent yakij stezhit za strichkoyu novin vimagaye vid VI peretvorennya nestrukturovanih danih u shos sho mozhlivo obgruntuvati Tipovim zastosuvannyam VI ye skanuvannya naboru dokumentiv napisanih prirodnoyu movoyu ta zapovnennya bazi danih otrimanoyu informaciyeyu Zadachi ta pidzadachiZastosuvannya vityaguvannya informaciyi do tekstu pov yazane z problemoyu sproshennya tekstu ta metoyu stvorennya strukturovanogo uyavlennya pro informaciyu sho ye u teksti Zagalna meta polyagaye v tomu shobi stvoriti legshij mashinochitnij tekst dlya obrobki rechen Do tipovih zavdannya ta pidzadach VI nalezhat Zapovnennya shablonu Vityaguvannya fiksovanogo naboru poliv z dokumenta napriklad vityagnuti dani pro vinnih zhertv chas tosho z gazetnoyi statti pro terakt Vityaguvannya podiyi Dano dokument vivoditsya nul abo bilshe shabloniv podij Napriklad u gazetnij statti mozhlivo opisati dekilka teraktiv Zapovnennya bazi znan Zapovniti bazu faktiv z naboru dokumentiv Zazvichaj baza danih maye formu tripletiv sutnist1 vidnoshennya sutnist2 napriklad Barak Obama podruzhzhya Mishel Obama Rozpiznavannya imenovanih sutnostej rozpiznavannya vidomih imen sutnostej lyudej abo organizacij toponimiv chasovih viraziv ta pevnih tipiv chislovih viraziv vikoristovuyuchi nayavni znannya pro domen abo informaciyu vityagnutu z inshih rechen Zazvichaj zavdannya rozpiznavannya vklyuchaye prisvoyennya unikalnogo identifikatora vityagnutij sutnosti Prostishim zavdannyam ye viyavlennya imenovanih sutnostej yake spryamovane na viyavlennya sutnostej bez zhodnih znan pro ekzemplyari sutnosti Napriklad pid chas obrobki rechennya M Smit lyubit ribolovlyu imenovane viyavlennya sutnosti oznachalo b viyavlennya togo sho fraza M Smit dijsno stosuyetsya lyudini ale bez obov yazkovogo volodinnya abo vikoristannya bud yakih znan pro pevnogo M Smita yakij ye abo mozhe buti konkretnoyu osoboyu pro yaku jdetsya u comu rechenni Koreferentnij poshuk viyavlennya koreferentnosti ta anaforichnih zv yazkiv mizh tekstovimi sutnostyami U zavdannyah VI ce yak pravilo obmezhuyetsya poshukom zv yazkiv mizh ranishe vityagnutimi imenovanimi sutnostyami Napriklad Novokramatorskij mashinobudivnij zavod ta NKMZ ce odin i toj zhe ob yekt realnogo svitu Yaksho vzyati dva rechennya M Smit lyubit ribolovlyu Ale vin ne lyubit yizditi na velosipedi bulo b korisno viyaviti sho vin ce ranishe viyavlena osoba M Smit en viyavlennya vidnosin mizh sub yektami takih yak OSOBA pracyuye na ORGANIZACIYu vityagnuto iz rechennya Mikola pracyuye na NKMZ OSOBA znahoditsya v LOKACIYi vityagnuto iz rechennya Mikola znahoditsya u Kramatorsku Napivstrukturovanij vityag informaciyi yakij mozhe stosuvatisya bud yakogo VI yakij namagayetsya vidnoviti yakus informacijnu strukturu yaka bula vtrachena v rezultati publikaciyi napriklad Vityaguvannya tablici poshuk ta vityaguvannya tablic z dokumentiv Vityaguvannya informaciyi z tablici strukturovane vityaguvannya informaciyi z tablic Ce skladnishe zavdannya nizh vityaguvannya tablici oskilki vityaguvannya tablici ce lishe pershij krok todi yak rozuminnya rolej komirok ryadkiv stovpciv zv yazuvannya informaciyi vseredini tablici ta rozuminnya informaciyi podanoyi v tablici ye dodatkovoyu zadacheyu sho ye neobhidnoyu dlya vityaguvannya informaciyi z tablici Vityaguvannya komentariv vityaguvannya komentariv iz faktichnogo zmistu statti z metoyu vidnovlennya zv yazku z avtorom kozhnogo rechennya Movnij ta slovnikovij analiz Vidobuvannya terminologiyi poshuk vidpovidnih terminiv dlya danogo korpusu tekstiv Vityaguvannya zvuku Vityaguvannya muziki na osnovi shablonu poshuk vidpovidnoyi harakteristiki v zvukovomu signali Napriklad chasovi indeksi poyavi perkutornih zvukiv mozhut vityaguvati dlya togo shobi predstaviti vazhlivu ritmichnu skladovu muzichnogo tvoru Zvernit uvagu sho cej perelik ne ye vicherpnim i sho tochnij zmist diyalnosti VI ne ye zagalnoviznanim Bagato pidhodiv poyednuyut v sobi kilka pidzavdan VI dlya dosyagnennya shirshoyi meti U VI chasto vikoristovuyut mashinne navchannya statistichnij analiz ta abo obrobku prirodnoyi movi Vikoristannya u vsesvitnij pavutiniVI bulo u centri uvagi konferencij MUC Odnak rozpovsyudzhennya Internetu posililo potrebu v rozrobci sistem VI yaki dopomagayut lyudyam vporatisya z velicheznoyu kilkistyu danih dostupnih v Interneti Sistemi VI z onlajn tekstu povinni vidpovidati vimogam nizkoyi vartosti gnuchkosti u rozrobci ta legkoyi adaptaciyi do novih domeniv Sistemi MUC ne vidpovidayut cim kriteriyam Ponad te lingvistichnij analiz provedenij dlya nestrukturovanogo tekstu ne vikoristovuye tegi HTML XML ta formati maketiv yaki dostupni v onlajn tekstah Yak rezultat dlya VI v Interneti bulo rozrobleno inshi pidhodi z vikoristannyam en yaki ye naborom duzhe tochnih pravil sho vityaguyut vmist pevnoyi storinki Ruchna rozrobka obgortki viyavilasya vazhkim zavdannyam sho vimagaye visokogo rivnya znan Dlya avtomatichnogo zaprovadzhennya takih pravil vikoristovuvali metodi mashinnogo navchannya kerovanogo abo nekerovanogo PidhodiNarazi shiroko prijnyato taki standartni pidhodi Regulyarni virazi abo vkladena grupa regulyarnih viraziv yaki stvoryuyut vruchnu Vikoristannya klasifikatoriv Porodzhuvalni nayivnij bayesiv klasifikator Rozriznyuvalni en taki yak en Modeli poslidovnostej Rekurentna nejronna merezha Prihovana markovska model Umovna markovska model en Umovni vipadkovi polya zazvichaj vikoristovuyut razom z VI dlya riznomanitnih zavdan vid vityaguvannya informaciyi z naukovih robit do vityaguvannya instrukcij z navigaciyi Dlya VI isnuye bagato inshih pidhodiv napriklad gibridni pidhodi sho poyednuyut deyaki standartni pidhodi perelicheni vishe Bezkoshtovne abo vidkrite programne zabezpechennya ta poslugiZagalna arhitektura dlya tekstovoyi inzheneriyi angl General Architecture for Text Engineering postachayetsya v komplekti z bezkoshtovnoyu sistemoyu vityaguvannya informaciyi Apache OpenNLP Apache OpenNLP ce nabir instrumentiv mashinnogo navchannya Java dlya obrobki prirodnoyi movi en ce avtomatichna vebsluzhba vityaguvannya informaciyi vid Thomson Reuters bezkoshtovna obmezhena versiya DBpedia Spotlight ce instrument z vidkritim kodom u Java Scala i bezkoshtovna vebsluzhba yakij mozhlivo vikoristovuvati dlya rozpiznavannya imenovanih sutnostej ta imen Natural Language Toolkit ce nabir bibliotek ta program dlya simvolnoyi ta statistichnoyi obrobki prirodnih mov OPM dlya movi programuvannya Python Div takozh vtilennya umovnogo vipadkovogo polyaDiv takozhAnisimov Anatolij VasilovichPrimitkiFREITAG DAYNE Machine Learning for Information Extraction in Informal Domains PDF 2000 Kluwer Academic Publishers Printed in the Netherlands Arhiv originalu PDF za 22 zhovtnya 2020 Procitovano 29 travnya 2021 Andersen Peggy M Hayes Philip J Huettner Alison K Schmandt Linda M Nirenburg Irene B Weinstein Steven P 1992 Automatic Extraction of Facts from Press Releases to Generate News Stories Proceedings of the third conference on Applied natural language processing s 170 177 CiteSeerX 10 1 1 14 7943 doi 10 3115 974499 974531 S2CID 14746386 Arhiv originalu za 21 serpnya 2020 Procitovano 29 travnya 2021 Cowie Jim Wilks Yorick 1996 Information Extraction PDF s 3 CiteSeerX 10 1 1 61 6480 S2CID 10237124 Arhiv originalu PDF za 20 lyutogo 2019 Marco Costantino Paolo Coletti Information Extraction in Finance Wit Press 2008 ISBN 978 1 84564 146 7 Linked Data The Story So Far PDF Arhiv originalu PDF za 12 bereznya 2019 Procitovano 29 travnya 2021 Tim Berners Lee on the next Web Arhiv originalu za 10 kvitnya 2011 Procitovano 29 travnya 2021 W Li C Niu and T Cornell InfoXtract A Customizable Intermediate Level Information Extraction Engine Journal of Natural Language Engineering nedostupne posilannya z 01 09 2020 Cambridge U Press 14 1 2008 pp 33 69 Dat Quoc Nguyen and Karin Verspoor 2019 End to end neural relation extraction using deep biaffine attention Proceedings of the 41st European Conference on Information Retrieval ECIR arXiv 1812 11275 doi 10 1007 978 3 030 15712 8 47 Milosevic N Gregson C Hernandez R Nenadic G February 2019 A framework for information extraction from tables in biomedical literature International Journal on Document Analysis and Recognition IJDAR 22 1 55 78 arXiv 1902 10031 Bibcode 2019arXiv190210031M doi 10 1007 s10032 019 00317 0 S2CID 62880746 Milosevic Nikola 2018 A multi layered approach to information extraction from tables in biomedical documents PDF PhD University of Manchester Arhiv originalu PDF za 11 bereznya 2022 Procitovano 29 travnya 2021 Milosevic N Gregson C Hernandez R Nenadic G June 2016 Disentangling the structure of tables in scientific literature 21st International Conference on Applications of Natural Language to Information Systems Lecture Notes in Computer Science 21 162 174 doi 10 1007 978 3 319 41754 7 14 ISBN 978 3 319 41753 0 Arhiv originalu za 2 chervnya 2021 Procitovano 29 travnya 2021 A Zils F Pachet O Delerue and F Gouyon Automatic Extraction of Drum Tracks from Polyphonic Music Signals Arhivovano 29 serpnya 2017 u Wayback Machine Proceedings of WedelMusic Darmstadt Germany 2002 Peng F McCallum A 2006 Information extraction from research papers using conditional random fields Information Processing amp Management 42 4 963 doi 10 1016 j ipm 2005 09 002 Shimizu Nobuyuki Hass Andrew 2006 Extracting Frame based Knowledge Representation from Route Instructions PDF Arhiv originalu PDF za 1 veresnya 2006 Procitovano 27 bereznya 2010