У обробці природної мови зв'язування сутностей (англ. Entity Linking), яке також називають зв'язування іменованих сутностей (ЗІС), розпізнавання іменованих сутностей (РІС), розпізнавання і неоднозначності іменованих сутностей (РНІС) або нормалізація іменованих сутностей (НІС), — це присвоєння унікальної ідентичності об'єктам (наприклад, відомим особам, місцям чи компаніям), що згадуються у тексті. Наприклад, розглянемо речення «Дніпро — річка України». Ідея полягає в тому, щоб визначити, що «Дніпро» належить до річки Дніпро, а не до Дніпро-арена чи будь-якої іншої організації, яку можна назвати «Дніпро». Зв'язування сутностей відрізняється від розпізнавання іменованих сутностей (РІС) тим, що РІС ідентифікує появу іменованої сутності в тексті, але не визначає, що саме це за сутність (див. Відмінності від інших технік).
Вступ
У зв'язуванні сутностей слова, що цікавлять (імена осіб, місцеположення та компанії) відображаються з вхідного тексту до відповідних унікальних сутностей у цільовій базі знань. Слова, що представляють інтерес, називаються названими сутностями (НС), згадками або поверхневими формами. Цільова база знань залежить від передбачуваної програми, але для систем зв'язування сутностей, призначених для роботи з текстом відкритого домену, зазвичай використовують бази знань, отримані з Вікіпедії (наприклад, Wikidata або DBpedia). У цьому випадку кожна окрема сторінка Вікіпедії розглядається як окрема сутність. Методи зв'язування сутностей, які відображають іменовані сутності до сутностей Вікіпедії, також називають вікіфікацією.
Знову розглянувши приклад речення «Дніпро — річка України», очікуваним результатом системи зв'язування об'єктів буде Дніпро і річка України. Ці уніфіковані локатори ресурсів (URL) можна використовувати як унікальні уніфіковані ідентифікатори ресурсів (URI) для сутностей у базі знань. Використання іншої бази знань повертає різні URI, але для баз знань, створених із Вікіпедії, існують індивідуальні відображення URI.
У більшості випадків бази знань створюються вручну, але в програмах, де доступні великі корпуси текстів, базу знань можна вивести автоматично з доступного тексту.
Зв'язування сутностей — це важливий крок для з'єднання вебданих з базами знань, що корисно для коментування величезної кількості необроблених і часто зашумлених даних в Інтернеті та сприяє баченню семантичної павутини. На додаток до зв'язування сутностей, існують інші важливі кроки, включаючи виділення подій та зв'язування подій, тощо.
Застосування
Зв'язування сутностей корисно в областях, яким потрібно витягувати абстрактні уявлення з тексту, наприклад, як в аналізі тексту, рекомендаційних системах, семантичному пошуку та чат-ботах. У всіх цих областях поняття, що мають відношення до пошукового запиту, відокремлені від тексту та інших даних, що не мають сенсу.
Наприклад, звичайне завдання, яке виконують пошукові системи, — це знайти документи, подібні до введених, або знайти додаткову інформацію про осіб, які в ньому згадуються. Розглянемо речення, яке містить вираз «річка України»: без посилання на об'єкти пошукова система, яка переглядає вміст документів, не зможе безпосередньо отримати документи, що містять слово «Дніпро», що призведе до так званих хибно негативних (ХН) результатів, коли буде вважатися, що документ не відповідає пошуковому запиту. Ще гірше те, що пошукова система може видати помилкові збіги (або хибно позитивні (ХП)), наприклад, отримати документи, які посилаються на «Україну» як на країну.
Існує багато підходів, ортогональних до зв'язування сутностей, які використовуються для отримання документів подібних до початкового документа. Наприклад, латентно-семантичний аналіз (ЛСА) або порівняння вставок документів, отриманих за допомогою doc2vec. Однак, ці методи не дозволяють отримати детальний контроль, який пропонується зв'язуванням сутностей, оскільки вони будуть повертати інші документи замість створення високорівневого представлення оригінального документу. Наприклад, отримання схематичної інформації про «Дніпро», яка представлена в інформаційній картці Вікіпедії, може бути не настільки простим, а іноді навіть нездійсненним, залежно від складності запиту.
Крім того, зв'язування сутностей використовувалося для покращення продуктивності систем інформаційного пошуку та для покращення ефективності пошуку в цифрових бібліотеках. Зв'язування об'єктів також є ключовим параметром для [en].
Проблеми у зв'язуванні сутностей
Система зв'язування сутностей повинна впоратися з низкою проблем, перш ніж стати ефективною в реальних застосунках. Деякі з цих проблем притаманні завданням зв'язування сутностей, наприклад, неоднозначність тексту, тоді як інші, такі як масштабованість і час виконання, стають актуальними при розгляді реального використання таких систем.
- Варіанти назви: один і той самий об'єкт може з'являтися з текстовими представленнями. Джерела цих варіацій включають абревіатури (Нью-Йорк, NY), псевдоніми (Нью-Йорк, Велике Яблуко) або варіанти написання та помилки (Nью-Йокр).
- Неоднозначність: одна й та сама згадка часто може стосуватися багатьох різних сутностей, залежно від контексту, оскільки багато назв сутностей, як правило, багатозначні (тобто мають кілька значень). Слово Дніпро, серед іншого, може означати річку України або Дніпро-арену. У деяких випадках (як у річці) немає текстової подібності між текстом згадки та фактичною ціллю (Дніпро).
- Відсутність: іноді деякі названі сутності можуть не мати правильне посилання на сутність у цільовій базі знань. Це може статися під час роботи з незвичайними об'єктами або під час обробки документів про нещодавні події, в яких можуть бути згадки про осіб або події, які ще не мають відповідної сутності в базі знань. Іншою поширеною ситуацією, коли відсутні сутності, є використання специфічних баз знань (наприклад, бази знань з біології чи бази даних фільмів). У всіх цих випадках система зв'язування сутностей повинна повертати
NIL
посилання на сутність. Зрозуміти, коли повертати передбаченняNIL
, непросто, і було запропоновано багато різних підходів. Наприклад, шляхом встановлення порогового значення певного рівня довіри до системи зв'язування сутностей або додавання додаткової сутностіNIL
до бази знань, яка обробляється так само як і інші сутності. Більш того, у деяких випадках надання неправильного, але пов'язаного прогнозування зв'язку об'єкта може бути кращим, ніж відсутність результату, з точки зору кінцевого користувача. - Масштабованість і швидкість: бажано, щоб система зв'язування промислових об'єктів забезпечувала результати в розумний час, а часто і в режимі реального часу. Ця вимога є критичною для пошукових систем, чат-ботів і систем зв'язування об'єктів, які пропонуються платформами аналізу даних. Забезпечення високої швидкості виконання може бути складним при використанні великих баз знань або при обробці великих документів. Наприклад, Вікіпедія містить майже і понад 170 мільйонів зв'язків між ними.
- Розвивається інформація: система зв'язування об'єктів також повинна мати справу з інформацією, що розвивається, і легко інтегрувати оновлення в базу знань. Проблема розвитку інформації іноді пов'язана з проблемою відсутніх сутностей, наприклад, при обробці останніх статей новин, у яких є згадки про події, які не мають відповідного запису в базі знань через їх новизну.
- Кілька мов: система зв'язування сутностей може підтримувати запити, що виконуються кількома мовами. В ідеалі на точність системи зв'язування сутностей не повинна впливати мова введення, а сутності в базі знань повинні бути однаковими для різних мов.
Відмінності від інших технік
Зв'язування сутностей також відоме як розшифровка іменованих сутностей (РІС) і глибоко пов'язане з вікіфікацією та [en]. Визначення часто розмиті та дещо відрізняються між різними авторами: Alhelbawy et al. розглядають зв'язування сутностей як ширшу версію РІС, оскільки РІС має припускати, що сутність, яка правильно відповідає певній текстовій згадці іменованого об'єкта, знаходиться в базі знань. Системи зв'язування сутностей можуть мати справу з випадками, коли в довідковій базі знань немає запису про названу сутність. Інші автори не роблять такого розмежування і використовують обидві назви як взаємозамінні.
- Вікіфікація — це завдання зв'язування текстових згадок із сутностями у Вікіпедії (загалом, обмежуючи область застосування англійською Вікіпедією у разі міжмовної вікіфікації).
- [en] (ЗЗ) вважається ширшим полем, ніж зв'язування сутностей, і полягає в пошуку записів у кількох і часто неоднорідних наборах даних, які посилаються на один і той самий об'єкт. Зв'язування записів є ключовим компонентом для оцифрування архівів і для об'єднання багатьох баз знань.
- Розпізнавання іменованих сутностей знаходить і класифікує названі об'єкти в неструктурованому тексті за попередньо визначеними категоріями, такими як назви, організації, розташування тощо. Наприклад, таке речення:
Дніпро - річка України.
- даний приклад буде оброблений системою для отримання результату
[Дніпро]річка - річка Україні [Україна]країна.
- Розпізнавання іменованого об'єкта зазвичай є етапом попередньої обробки системи зв'язування сутностей, оскільки може бути корисно знати заздалегідь, які слова мають бути пов'язані з сутностями бази знань.
- Кореферентність розуміє, чи посилаються кілька слів у тексті до однієї сутності. Це може бути корисно, наприклад, для розуміння слова, до якого відноситься займенник. Розглянемо наступний приклад:
Дніпро річка України. Також, вона найбільша річка в Україні.
- У цьому прикладі алгоритм розділення кореференцій визначить, що займенник вона відноситься до Дніпра, а не до України чи іншої сутності. Примітна відмінність у порівнянні зі зв'язуванням сутностей полягає в тому, що роздільна здатність Coreference Resolution не призначає жодної унікальної ідентичності словам, які збігаються, а просто вказує, чи посилаються вони на ту саму сутність чи ні. У цьому сенсі передбачення системи роздільної здатності кореференцій можуть бути корисними для наступного компонента зв'язування сутностей.
Підходи до зв'язування сутностей
Протягом останнього десятиліття зв'язування сутностей було гарячою темою в промисловості та наукових колах. Однак на сьогодні більшість наявних проблем все ще не вирішені, і було запропоновано багато систем зв'язування об'єктів із дуже різними сильними та слабкими сторонами.
Загалом, сучасні системи зв'язування сутностей можна розділити на дві категорії:
- Підходи на основі тексту, які використовують текстові елементи, витягнуті з великих текстових розділів (наприклад Частота слова — Обернена частота документа (Tf–Idf), ймовірність спільного зустрічання слів тощо).
- Підходи на основі графів, які використовують структуру [en] для представлення контексту та відношення сутностей.
Часто системи зв'язування сутностей не можна строго класифікувати в жодній із категорій. Вони використовують графи знань, збагачені додатковими текстовими функціями, витягнутими, наприклад, із текстових корпусів, які використовувалися для побудови самих графів знань.
Зв'язування об'єктів на основі тексту
Фундаментальна робота Кусерзана у 2007 році запропонувала одну з перших систем зв'язування сутностей, які з'явилися в літературі, і вирішували завдання вікіфікації, пов'язуючи текстові згадки зі сторінками Вікіпедії. Ця система розділяє сторінки як сторінки об'єктів, значень або списків, які використовуються для призначення категорій кожній сутності. Набір сутностей, присутніх на кожній сторінці сутності, використовується для побудови контексту сутності. Останнім етапом зв'язування сутності є колективне розкриття неоднозначності, що виконується шляхом порівняння бінарних векторів, отриманих з об'єктів, створених вручну, і з контексту кожної сутності. Система зв'язування сутностей Кусерзана все ще використовується як базова для багатьох останніх робіт.
Робота Рао та ін. є добре відомим документом у сфері зв'язування сутностей. Автори пропонують двоетапний алгоритм зв'язування іменованих сутностей з сутностями цільової бази знань. По-перше, набір сутностей-кандидатів вибирається за допомогою відповідності рядків, акронімів і відомих псевдонімів. Тоді найкраще посилання серед кандидатів вибирається за допомогою методу опорних векторів рейтингу (МОВ), яка використовує лінгвістичні особливості.
Останні системи, такі як система, запропонована Цай та ін., використовують вкладання слів, отримане за допомогою моделі пропуску, як особливості мови, і їх можна застосувати до будь-якої мови, якщо надається великий корпус для створення вставок слів. Подібно до більшості систем зв'язування об'єктів, зв'язування виконується в два етапи, з початковим вибором об'єктів-кандидатів і МВП лінійного ранжирування як другим кроком.
Для розв'язання проблеми неоднозначності сутності були спробувані різні підходи. У основоположному підході Мілна і Віттена кероване навчання працює за допомогою якірних текстів об'єктів Вікіпедії як навчальних даних. Інші підходи також збирали навчальні дані на основі однозначних синонімів.
Пов'язування сутностей на основі графів
Сучасні системи зв'язування сутностей не обмежують свій аналіз текстовими функціями, створеними з вхідних документів або текстових корпусів, а використовують великі [en], створені з баз знань, таких як Вікіпедія. Ці системи виділяють складні функції, які використовують переваги топології графа знань, або використовують багатоетапні зв'язки між об'єктами, які можна приховати за допомогою простого аналізу тексту. Більш того, створення багатомовних систем зв'язування об'єктів, заснованих на обробці природної мови (ОПМ), по суті є складним, оскільки вимагає або великих текстових корпусів, часто відсутніх для багатьох мов, або створених вручну граматичних правил, які сильно відрізняються між мовами. Хан та ін. запропонувати створення графа значень (підграф бази знань, який містить об'єкти-кандидати). Цей графік використовується для суто колективної процедури рейтингу, яка знаходить найкраще посилання-кандидат для кожного текстовоЇ згадки.
Іншим відомим підходом до зв'язування об'єктів є AIDA, який використовує серію алгоритмів складних графів і жадібний алгоритм, який ідентифікує узгоджені згадки на щільному підграфі, також враховуючи подібність контексту та особливості важливості вершин для виконання колективної неоднозначності.
Ранжування графів (або ранжування вершин) позначає такі алгоритми, як PageRank (PR) і [en] (HITS), з метою призначити оцінку кожній вершині, яка представляє її відносну важливість в загальному графу. Система зв'язування сутностей, представлена в Alhelbawy et al. використовує PageRank для виконання колективного зв'язування сутностей на графі значень, а також для розуміння того, які об'єкти більш тісно пов'язані один з одним і представляють краще зв'язування.
Зв'язування математичних сутностей
Математичні вирази (символи та формули) можуть бути пов'язані із семантичними об'єктами (наприклад, статтями Вікіпедії або елементами Вікіданих), позначеними їх значенням природної мови. Це важливо для визначення неоднозначності, оскільки символи можуть мати різне значення (наприклад, «E» може бути «енергією» або «математичним сподіванням», тощо). Процес зв'язування математичних об'єктів можна полегшити та прискорити за допомогою рекомендацій щодо анотацій, наприклад, за допомогою системи «AnnoMathTeX», яка розміщена у Wikimedia.
Щоб полегшити відтворюваність експериментів з математичним зв'язуванням об'єктів (MathEL), було створено еталонний тест MathMLben. Він містить формули з Вікіпедії, arXiV та цифрової бібліотеки математичних функцій [en] від Національного інституту стандартів і технології (NIST). Записи формул у тесті позначаються та доповнюються розміткою Вікіданих. Крім того, для двох великих корпусів із репозиторіїв arXiv та zbMATH було досліджено розподіли математичних позначень. Математичні об'єкти інтересу (MOI) визначені як потенційні кандидати на MathEL.
Окрім посилання на Вікіпедію, Шубоц та Шарпф та ін. описують зв'язування вмісту математичної формули з Вікіданими, як у розмітці MathML, так і в LaTeX. Щоб розширити класичні цитати математичними, вони закликають до розробки автоматизованого MathEL для виявлення концепції формули (Formula Concept Discovery, FCD) та розпізнавання концепції формули (Formula Concept Recognition, FCR). Їх підхід FCD дає повноту 68 % для отримання еквівалентних представлень частих формул і 72 % для вилучення назви формули з навколишнього тексту в наборі даних NTCIR arXiv.
Див. також
- [en]
- [en]
- [en]
- Витягування інформації
- [en]
- Іменована сутність
- Розпізнавання іменованих сутностей
- [en]
- [en]
- [en]
- Кореферентність
- Анотація
Посилання
- Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (1 січня 2013). Artificial Intelligence, Wikipedia and Semi-Structured ResourcesEvaluating Entity Linking with Wikipedia. Artificial Intelligence. 194: 130—150. doi:10.1016/j.artint.2012.04.005.
- M. A. Khalid, V. Jijkoun and [en] (2008). The impact of named entity normalization on information retrieval for question answering[недоступне посилання]. Proc. ECIR.
- Han, Xianpei; Sun, Le; Zhao, Jun (2011). Collective Entity Linking in Web Text: A Graph-based Method. Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM: 765—774. doi:10.1145/2009916.2010019.
- Rada Mihalcea and Andras Csomai (2007)Wikify! Linking Documents to Encyclopedic Knowledge [ 20 січня 2022 у Wayback Machine.]. Proc. CIKM.
- . Архів оригіналу за 20 квітня 2021. Процитовано 18 травня 2022.
- Wikidata
- Aaron M. Cohen (2005). Unsupervised gene/protein named entity normalization using automatically extracted dictionaries. Proc. [en]-ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, pp. 17–24.
- Shen W, Wang J, Han J. Entity linking with a knowledge base: Issues, techniques, and solutions[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 27(2): 443—460.
- Chang Y C, Chu C H, Su Y C, et al. PIPE: a protein–protein interaction passage extraction module for BioCreative challenge[J]. Database, 2016, 2016.
- Lou P, Jimeno Yepes A, Zhang Z, et al. BioNorm: deep learning-based event normalization for the curation of reaction databases[J]. Bioinformatics, 2020, 36(2): 611—620.
- Slawski, Bill. . Архів оригіналу за 21 травня 2022. Процитовано 18 травня 2022.
- Zhou, Ming; Lv, Weifeng; Ren, Pengjie; Wei, Furu; Tan, Chuanqi (2017). Entity Linking for Queries by Searching Wikipedia Sentences. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (en-us) . с. 68—77. arXiv:1704.02788. doi:10.18653/v1/D17-1007.
- Le, Quoc; Mikolov, Tomas (2014). Distributed Representations of Sentences and Documents. Proceedings of the 31st International Conference on International Conference on Machine Learning - Volume 32. JMLR.org: II–1188–II–1196. arXiv:1405.4053.
- Hui Han, Hongyuan Zha, C. Lee Giles, "Name disambiguation in author citations using a K-way spectral clustering method, " ACM/IEEE Joint Conference on Digital Libraries 2005 (JCDL 2005): 334—343, 2005
- . Архів оригіналу за 1 вересня 2021. Процитовано 18 червня 2022.
- Parravicini, Alberto; Patra, Rhicheek; Bartolini, Davide B.; Santambrogio, Marco D. (2019). Fast and Accurate Entity Linking via Graph Embedding. Proceedings of the 2Nd Joint International Workshop on Graph Data Management Experiences & Systems (GRADES) and Network Data Analytics (NDA). ACM: 10:1–10:9. doi:10.1145/3327964.3328499. ISBN .
- Hoffart, Johannes; Altun, Yasemin; Weikum, Gerhard (2014). Discovering Emerging Entities with Ambiguous Names. Proceedings of the 23rd International Conference on World Wide Web. ACM: 385—396. doi:10.1145/2566486.2568003. ISBN .
- Doermann, David S.; Oard, Douglas W.; Lawrie, Dawn J.; Mayfield, James; McNamee, Paul (2011). Cross-Language Entity Linking (англ.).
- Tsai, Chen-Tse; Roth, Dan (2016). . Proceedings of NAACL-HLT 2016: 589—598. Архів оригіналу за 10 червня 2018. Процитовано 18 травня 2022.
- Alhelbawy, Ayman; Gaizauskas, Robert. . Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers (Dublin City University and Association for Computational Linguistics): 1544—1555. Архів оригіналу за 8 лютого 2019. Процитовано 18 травня 2022.
- Hachey, Ben; Radford, Will; Nothman, Joel; Honnibal, Matthew; Curran, James R. (2013). Evaluating Entity Linking with Wikipedia. Artif. Intell. 194: 130—150. doi:10.1016/j.artint.2012.04.005. ISSN 0004-3702.
- Ji, Heng; Nothman, Joel; Hachey, Ben; Florian, Radu (2015). Overview of TAC-KBP2015 Tri-lingual Entity Discovery and Linking. TAC.
- Cucerzan, Silviu. (en-us) . Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): 708—716. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
- Weikum, Gerhard; Thater, Stefan; Taneva, Bilyana; Spaniol, Marc; Pinkal, Manfred; Fürstenau, Hagen; Bordino, Ilaria; Yosef, Mohamed Amir; Hoffart, Johannes (2011). . Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (en-us) : 782—792. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
- Zwicklbauer, Stefan; Seifert, Christin; Granitzer, Michael (2016). Robust and Collective Entity Disambiguation Through Semantic Embeddings. Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM: 425—434. doi:10.1145/2911451.2911535. ISBN .
- Cucerzan, Silviu. (en-us) . Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL): 708—716. Архів оригіналу за 2 липня 2019. Процитовано 18 травня 2022.
- Kulkarni, Sayali; Singh, Amit; Ramakrishnan, Ganesh; Chakrabarti, Soumen (2009). Collective annotation of Wikipedia entities in web text. Proc. 15th ACM SIGKDD Int'l Conf. on Knowledge Discovery and Data Mining (KDD). doi:10.1145/1557019.1557073. ISBN .
- Rao, Delip; McNamee, Paul; Dredze, Mark (2013). Entity Linking: Finding Extracted Entities in a Knowledge Base. Multi-source, Multilingual Information Extraction and Summarization. Theory and Applications of Natural Language Processing (англ.). Springer Berlin Heidelberg: 93—115. doi:10.1007/978-3-642-28569-1_5. ISBN .
- David Milne and Ian H. Witten (2008). Learning to link with Wikipedia. Proc. CIKM.
- Zhang, Wei; Jian Su; Chew Lim Tan (2010). Entity Linking Leveraging Automatically Generated Annotation. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010).
- Giovanni Yoko Kristianto; Goran Topic; Akiko Aizawa та ін. (2016). Entity Linking for Mathematical Expressions in Scientific Documents. International Conference on Asian Digital Libraries. Lecture Notes in Computer Science. Springer. 10075: 144—149. doi:10.1007/978-3-319-49304-6_18. ISBN .
- Moritz Schubotz; Philipp Scharpf та ін. (2018). Introducing MathQA: a Math-Aware question answering system. Information Discovery and Delivery. Emerald Publishing Limited. 46 (4): 214—224. arXiv:1907.01642. doi:10.1108/IDD-06-2018-0022.
- AnnoMathTeX Formula/Identifier Annotation Recommender System. Архів оригіналу за 28 березня 2022. Процитовано 18 червня 2022.
- Philipp Scharpf; Ian Mackerracher та ін. (17 вересня 2019). (PDF). Proceedings of the 13th ACM Conference on Recommender Systems (RecSys 2019): 532—533. doi:10.1145/3298689.3347042. ISBN . Архів оригіналу (PDF) за 22 січня 2022. Процитовано 18 травня 2022.
- Philipp Scharpf; Moritz Schubotz; Bela Gipp (14 квітня 2021). (PDF). Companion Proceedings of the Web Conference 2021 (WWW '21 Companion): 602—609. arXiv:2104.05111. doi:10.1145/3442442.3452348. ISBN . Архів оригіналу (PDF) за 20 січня 2022. Процитовано 18 травня 2022.
- MathMLben formula benchmark. Архів оригіналу за 23 січня 2022. Процитовано 18 червня 2022.
- . Архів оригіналу за 22 лютого 2011. Процитовано 18 червня 2022.
- . Архів оригіналу за 15 червня 2022. Процитовано 18 червня 2022.
- André Greiner-Petter; Moritz Schubotz; Fabian Mueller; Corinna Breitinger; Howard S. Cohl; Akiko Aizawa; Bela Gipp (2020). (PDF). Proceedings of the Web Conference 2020 (WWW '20): 1445—1456. arXiv:2002.02712. doi:10.1145/3366423.3380218. ISBN . Архів оригіналу (PDF) за 20 січня 2022. Процитовано 18 травня 2022.
- Moritz Schubotz; André Greiner-Petter; Philipp Scharpf; Norman Meuschke; Howard Cohl; Bela Gipp (2018). (PDF). 18th ACM/IEEE on Joint Conference on Digital Libraries 2018: 233—242. arXiv:1804.04956. doi:10.1145/3197026.3197058. ISBN . Архів оригіналу (PDF) за 20 січня 2022. Процитовано 18 травня 2022.
- Akiko Aizawa; Michael Kohlhase; Iadh Ounis; Moritz Schubotz. NTCIR-11 Math-2 Task Overview. Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
U obrobci prirodnoyi movi zv yazuvannya sutnostej angl Entity Linking yake takozh nazivayut zv yazuvannya imenovanih sutnostej ZIS rozpiznavannya imenovanih sutnostej RIS rozpiznavannya i neodnoznachnosti imenovanih sutnostej RNIS abo normalizaciya imenovanih sutnostej NIS ce prisvoyennya unikalnoyi identichnosti ob yektam napriklad vidomim osobam miscyam chi kompaniyam sho zgaduyutsya u teksti Napriklad rozglyanemo rechennya Dnipro richka Ukrayini Ideya polyagaye v tomu shob viznachiti sho Dnipro nalezhit do richki Dnipro a ne do Dnipro arena chi bud yakoyi inshoyi organizaciyi yaku mozhna nazvati Dnipro Zv yazuvannya sutnostej vidriznyayetsya vid rozpiznavannya imenovanih sutnostej RIS tim sho RIS identifikuye poyavu imenovanoyi sutnosti v teksti ale ne viznachaye sho same ce za sutnist div Vidminnosti vid inshih tehnik U zv yazuvanni sutnosti kozhna nazvana sutnist pov yazana z unikalnim identifikatorom Chasto cej identifikator vidpovidaye storinci Vikipediyi VstupU zv yazuvanni sutnostej slova sho cikavlyat imena osib miscepolozhennya ta kompaniyi vidobrazhayutsya z vhidnogo tekstu do vidpovidnih unikalnih sutnostej u cilovij bazi znan Slova sho predstavlyayut interes nazivayutsya nazvanimi sutnostyami NS zgadkami abo poverhnevimi formami Cilova baza znan zalezhit vid peredbachuvanoyi programi ale dlya sistem zv yazuvannya sutnostej priznachenih dlya roboti z tekstom vidkritogo domenu zazvichaj vikoristovuyut bazi znan otrimani z Vikipediyi napriklad Wikidata abo DBpedia U comu vipadku kozhna okrema storinka Vikipediyi rozglyadayetsya yak okrema sutnist Metodi zv yazuvannya sutnostej yaki vidobrazhayut imenovani sutnosti do sutnostej Vikipediyi takozh nazivayut vikifikaciyeyu Znovu rozglyanuvshi priklad rechennya Dnipro richka Ukrayini ochikuvanim rezultatom sistemi zv yazuvannya ob yektiv bude Dnipro i richka Ukrayini Ci unifikovani lokatori resursiv URL mozhna vikoristovuvati yak unikalni unifikovani identifikatori resursiv URI dlya sutnostej u bazi znan Vikoristannya inshoyi bazi znan povertaye rizni URI ale dlya baz znan stvorenih iz Vikipediyi isnuyut individualni vidobrazhennya URI U bilshosti vipadkiv bazi znan stvoryuyutsya vruchnu ale v programah de dostupni veliki korpusi tekstiv bazu znan mozhna vivesti avtomatichno z dostupnogo tekstu Zv yazuvannya sutnostej ce vazhlivij krok dlya z yednannya vebdanih z bazami znan sho korisno dlya komentuvannya velicheznoyi kilkosti neobroblenih i chasto zashumlenih danih v Interneti ta spriyaye bachennyu semantichnoyi pavutini Na dodatok do zv yazuvannya sutnostej isnuyut inshi vazhlivi kroki vklyuchayuchi vidilennya podij ta zv yazuvannya podij tosho Zastosuvannya Zv yazuvannya sutnostej korisno v oblastyah yakim potribno vityaguvati abstraktni uyavlennya z tekstu napriklad yak v analizi tekstu rekomendacijnih sistemah semantichnomu poshuku ta chat botah U vsih cih oblastyah ponyattya sho mayut vidnoshennya do poshukovogo zapitu vidokremleni vid tekstu ta inshih danih sho ne mayut sensu Napriklad zvichajne zavdannya yake vikonuyut poshukovi sistemi ce znajti dokumenti podibni do vvedenih abo znajti dodatkovu informaciyu pro osib yaki v nomu zgaduyutsya Rozglyanemo rechennya yake mistit viraz richka Ukrayini bez posilannya na ob yekti poshukova sistema yaka pereglyadaye vmist dokumentiv ne zmozhe bezposeredno otrimati dokumenti sho mistyat slovo Dnipro sho prizvede do tak zvanih hibno negativnih HN rezultativ koli bude vvazhatisya sho dokument ne vidpovidaye poshukovomu zapitu She girshe te sho poshukova sistema mozhe vidati pomilkovi zbigi abo hibno pozitivni HP napriklad otrimati dokumenti yaki posilayutsya na Ukrayinu yak na krayinu Isnuye bagato pidhodiv ortogonalnih do zv yazuvannya sutnostej yaki vikoristovuyutsya dlya otrimannya dokumentiv podibnih do pochatkovogo dokumenta Napriklad latentno semantichnij analiz LSA abo porivnyannya vstavok dokumentiv otrimanih za dopomogoyu doc2vec Odnak ci metodi ne dozvolyayut otrimati detalnij kontrol yakij proponuyetsya zv yazuvannyam sutnostej oskilki voni budut povertati inshi dokumenti zamist stvorennya visokorivnevogo predstavlennya originalnogo dokumentu Napriklad otrimannya shematichnoyi informaciyi pro Dnipro yaka predstavlena v informacijnij kartci Vikipediyi mozhe buti ne nastilki prostim a inodi navit nezdijsnennim zalezhno vid skladnosti zapitu Krim togo zv yazuvannya sutnostej vikoristovuvalosya dlya pokrashennya produktivnosti sistem informacijnogo poshuku ta dlya pokrashennya efektivnosti poshuku v cifrovih bibliotekah Zv yazuvannya ob yektiv takozh ye klyuchovim parametrom dlya en Problemi u zv yazuvanni sutnostej Sistema zv yazuvannya sutnostej povinna vporatisya z nizkoyu problem persh nizh stati efektivnoyu v realnih zastosunkah Deyaki z cih problem pritamanni zavdannyam zv yazuvannya sutnostej napriklad neodnoznachnist tekstu todi yak inshi taki yak masshtabovanist i chas vikonannya stayut aktualnimi pri rozglyadi realnogo vikoristannya takih sistem Varianti nazvi odin i toj samij ob yekt mozhe z yavlyatisya z tekstovimi predstavlennyami Dzherela cih variacij vklyuchayut abreviaturi Nyu Jork NY psevdonimi Nyu Jork Velike Yabluko abo varianti napisannya ta pomilki Nyu Jokr Neodnoznachnist odna j ta sama zgadka chasto mozhe stosuvatisya bagatoh riznih sutnostej zalezhno vid kontekstu oskilki bagato nazv sutnostej yak pravilo bagatoznachni tobto mayut kilka znachen Slovo Dnipro sered inshogo mozhe oznachati richku Ukrayini abo Dnipro arenu U deyakih vipadkah yak u richci nemaye tekstovoyi podibnosti mizh tekstom zgadki ta faktichnoyu cillyu Dnipro Vidsutnist inodi deyaki nazvani sutnosti mozhut ne mati pravilne posilannya na sutnist u cilovij bazi znan Ce mozhe statisya pid chas roboti z nezvichajnimi ob yektami abo pid chas obrobki dokumentiv pro neshodavni podiyi v yakih mozhut buti zgadki pro osib abo podiyi yaki she ne mayut vidpovidnoyi sutnosti v bazi znan Inshoyu poshirenoyu situaciyeyu koli vidsutni sutnosti ye vikoristannya specifichnih baz znan napriklad bazi znan z biologiyi chi bazi danih filmiv U vsih cih vipadkah sistema zv yazuvannya sutnostej povinna povertati NIL posilannya na sutnist Zrozumiti koli povertati peredbachennya NIL neprosto i bulo zaproponovano bagato riznih pidhodiv Napriklad shlyahom vstanovlennya porogovogo znachennya pevnogo rivnya doviri do sistemi zv yazuvannya sutnostej abo dodavannya dodatkovoyi sutnosti NIL do bazi znan yaka obroblyayetsya tak samo yak i inshi sutnosti Bilsh togo u deyakih vipadkah nadannya nepravilnogo ale pov yazanogo prognozuvannya zv yazku ob yekta mozhe buti krashim nizh vidsutnist rezultatu z tochki zoru kincevogo koristuvacha Masshtabovanist i shvidkist bazhano shob sistema zv yazuvannya promislovih ob yektiv zabezpechuvala rezultati v rozumnij chas a chasto i v rezhimi realnogo chasu Cya vimoga ye kritichnoyu dlya poshukovih sistem chat botiv i sistem zv yazuvannya ob yektiv yaki proponuyutsya platformami analizu danih Zabezpechennya visokoyi shvidkosti vikonannya mozhe buti skladnim pri vikoristanni velikih baz znan abo pri obrobci velikih dokumentiv Napriklad Vikipediya mistit majzhe 9 miljoniv sutnostej i ponad 170 miljoniv zv yazkiv mizh nimi Rozvivayetsya informaciya sistema zv yazuvannya ob yektiv takozh povinna mati spravu z informaciyeyu sho rozvivayetsya i legko integruvati onovlennya v bazu znan Problema rozvitku informaciyi inodi pov yazana z problemoyu vidsutnih sutnostej napriklad pri obrobci ostannih statej novin u yakih ye zgadki pro podiyi yaki ne mayut vidpovidnogo zapisu v bazi znan cherez yih noviznu Kilka mov sistema zv yazuvannya sutnostej mozhe pidtrimuvati zapiti sho vikonuyutsya kilkoma movami V ideali na tochnist sistemi zv yazuvannya sutnostej ne povinna vplivati mova vvedennya a sutnosti v bazi znan povinni buti odnakovimi dlya riznih mov Vidminnosti vid inshih tehnik Zv yazuvannya sutnostej takozh vidome yak rozshifrovka imenovanih sutnostej RIS i gliboko pov yazane z vikifikaciyeyu ta en Viznachennya chasto rozmiti ta desho vidriznyayutsya mizh riznimi avtorami Alhelbawy et al rozglyadayut zv yazuvannya sutnostej yak shirshu versiyu RIS oskilki RIS maye pripuskati sho sutnist yaka pravilno vidpovidaye pevnij tekstovij zgadci imenovanogo ob yekta znahoditsya v bazi znan Sistemi zv yazuvannya sutnostej mozhut mati spravu z vipadkami koli v dovidkovij bazi znan nemaye zapisu pro nazvanu sutnist Inshi avtori ne roblyat takogo rozmezhuvannya i vikoristovuyut obidvi nazvi yak vzayemozaminni Vikifikaciya ce zavdannya zv yazuvannya tekstovih zgadok iz sutnostyami u Vikipediyi zagalom obmezhuyuchi oblast zastosuvannya anglijskoyu Vikipediyeyu u razi mizhmovnoyi vikifikaciyi en ZZ vvazhayetsya shirshim polem nizh zv yazuvannya sutnostej i polyagaye v poshuku zapisiv u kilkoh i chasto neodnoridnih naborah danih yaki posilayutsya na odin i toj samij ob yekt Zv yazuvannya zapisiv ye klyuchovim komponentom dlya ocifruvannya arhiviv i dlya ob yednannya bagatoh baz znan Rozpiznavannya imenovanih sutnostej znahodit i klasifikuye nazvani ob yekti v nestrukturovanomu teksti za poperedno viznachenimi kategoriyami takimi yak nazvi organizaciyi roztashuvannya tosho Napriklad take rechennya Dnipro richka Ukrayini danij priklad bude obroblenij sistemoyu dlya otrimannya rezultatu Dnipro richka richka Ukrayini Ukrayina krayina Rozpiznavannya imenovanogo ob yekta zazvichaj ye etapom poperednoyi obrobki sistemi zv yazuvannya sutnostej oskilki mozhe buti korisno znati zazdalegid yaki slova mayut buti pov yazani z sutnostyami bazi znan Koreferentnist rozumiye chi posilayutsya kilka sliv u teksti do odniyeyi sutnosti Ce mozhe buti korisno napriklad dlya rozuminnya slova do yakogo vidnositsya zajmennik Rozglyanemo nastupnij priklad Dnipro richka Ukrayini Takozh vona najbilsha richka v Ukrayini U comu prikladi algoritm rozdilennya koreferencij viznachit sho zajmennik vona vidnositsya do Dnipra a ne do Ukrayini chi inshoyi sutnosti Primitna vidminnist u porivnyanni zi zv yazuvannyam sutnostej polyagaye v tomu sho rozdilna zdatnist Coreference Resolution ne priznachaye zhodnoyi unikalnoyi identichnosti slovam yaki zbigayutsya a prosto vkazuye chi posilayutsya voni na tu samu sutnist chi ni U comu sensi peredbachennya sistemi rozdilnoyi zdatnosti koreferencij mozhut buti korisnimi dlya nastupnogo komponenta zv yazuvannya sutnostej Pidhodi do zv yazuvannya sutnostejProtyagom ostannogo desyatilittya zv yazuvannya sutnostej bulo garyachoyu temoyu v promislovosti ta naukovih kolah Odnak na sogodni bilshist nayavnih problem vse she ne virisheni i bulo zaproponovano bagato sistem zv yazuvannya ob yektiv iz duzhe riznimi silnimi ta slabkimi storonami Zagalom suchasni sistemi zv yazuvannya sutnostej mozhna rozdiliti na dvi kategoriyi Pidhodi na osnovi tekstu yaki vikoristovuyut tekstovi elementi vityagnuti z velikih tekstovih rozdiliv napriklad Chastota slova Obernena chastota dokumenta Tf Idf jmovirnist spilnogo zustrichannya sliv tosho Pidhodi na osnovi grafiv yaki vikoristovuyut strukturu en dlya predstavlennya kontekstu ta vidnoshennya sutnostej Chasto sistemi zv yazuvannya sutnostej ne mozhna strogo klasifikuvati v zhodnij iz kategorij Voni vikoristovuyut grafi znan zbagacheni dodatkovimi tekstovimi funkciyami vityagnutimi napriklad iz tekstovih korpusiv yaki vikoristovuvalisya dlya pobudovi samih grafiv znan Zobrazhennya osnovnih krokiv v algoritmi zv yazuvannya sutnosti Bilshist algoritmiv zv yazuvannya ob yektiv skladayetsya z pochatkovogo kroku rozpiznavannya imenovanogo ob yekta na yakomu nazvani ob yekti znahodyatsya v originalnomu teksti tut Parizh i Franciya i nastupnogo kroku na yakomu kozhen nazvanij ob yekt pov yazuyetsya zi svoyim vidpovidnim unikalnim identifikatorom tut storinka Vikipediyi Cej ostannij krok chasto vikonuyetsya shlyahom stvorennya nevelikogo naboru identifikatoriv kandidativ dlya kozhnogo nazvanogo ob yekta ta shlyahom viboru najbilsh perspektivnogo kandidata shodo obranogo pokaznika Zv yazuvannya ob yektiv na osnovi tekstu Fundamentalna robota Kuserzana u 2007 roci zaproponuvala odnu z pershih sistem zv yazuvannya sutnostej yaki z yavilisya v literaturi i virishuvali zavdannya vikifikaciyi pov yazuyuchi tekstovi zgadki zi storinkami Vikipediyi Cya sistema rozdilyaye storinki yak storinki ob yektiv znachen abo spiskiv yaki vikoristovuyutsya dlya priznachennya kategorij kozhnij sutnosti Nabir sutnostej prisutnih na kozhnij storinci sutnosti vikoristovuyetsya dlya pobudovi kontekstu sutnosti Ostannim etapom zv yazuvannya sutnosti ye kolektivne rozkrittya neodnoznachnosti sho vikonuyetsya shlyahom porivnyannya binarnih vektoriv otrimanih z ob yektiv stvorenih vruchnu i z kontekstu kozhnoyi sutnosti Sistema zv yazuvannya sutnostej Kuserzana vse she vikoristovuyetsya yak bazova dlya bagatoh ostannih robit Robota Rao ta in ye dobre vidomim dokumentom u sferi zv yazuvannya sutnostej Avtori proponuyut dvoetapnij algoritm zv yazuvannya imenovanih sutnostej z sutnostyami cilovoyi bazi znan Po pershe nabir sutnostej kandidativ vibirayetsya za dopomogoyu vidpovidnosti ryadkiv akronimiv i vidomih psevdonimiv Todi najkrashe posilannya sered kandidativ vibirayetsya za dopomogoyu metodu opornih vektoriv rejtingu MOV yaka vikoristovuye lingvistichni osoblivosti Ostanni sistemi taki yak sistema zaproponovana Caj ta in vikoristovuyut vkladannya sliv otrimane za dopomogoyu modeli propusku yak osoblivosti movi i yih mozhna zastosuvati do bud yakoyi movi yaksho nadayetsya velikij korpus dlya stvorennya vstavok sliv Podibno do bilshosti sistem zv yazuvannya ob yektiv zv yazuvannya vikonuyetsya v dva etapi z pochatkovim viborom ob yektiv kandidativ i MVP linijnogo ranzhiruvannya yak drugim krokom Dlya rozv yazannya problemi neodnoznachnosti sutnosti buli sprobuvani rizni pidhodi U osnovopolozhnomu pidhodi Milna i Vittena kerovane navchannya pracyuye za dopomogoyu yakirnih tekstiv ob yektiv Vikipediyi yak navchalnih danih Inshi pidhodi takozh zbirali navchalni dani na osnovi odnoznachnih sinonimiv Pov yazuvannya sutnostej na osnovi grafiv Suchasni sistemi zv yazuvannya sutnostej ne obmezhuyut svij analiz tekstovimi funkciyami stvorenimi z vhidnih dokumentiv abo tekstovih korpusiv a vikoristovuyut veliki en stvoreni z baz znan takih yak Vikipediya Ci sistemi vidilyayut skladni funkciyi yaki vikoristovuyut perevagi topologiyi grafa znan abo vikoristovuyut bagatoetapni zv yazki mizh ob yektami yaki mozhna prihovati za dopomogoyu prostogo analizu tekstu Bilsh togo stvorennya bagatomovnih sistem zv yazuvannya ob yektiv zasnovanih na obrobci prirodnoyi movi OPM po suti ye skladnim oskilki vimagaye abo velikih tekstovih korpusiv chasto vidsutnih dlya bagatoh mov abo stvorenih vruchnu gramatichnih pravil yaki silno vidriznyayutsya mizh movami Han ta in zaproponuvati stvorennya grafa znachen pidgraf bazi znan yakij mistit ob yekti kandidati Cej grafik vikoristovuyetsya dlya suto kolektivnoyi proceduri rejtingu yaka znahodit najkrashe posilannya kandidat dlya kozhnogo tekstovoYi zgadki Inshim vidomim pidhodom do zv yazuvannya ob yektiv ye AIDA yakij vikoristovuye seriyu algoritmiv skladnih grafiv i zhadibnij algoritm yakij identifikuye uzgodzheni zgadki na shilnomu pidgrafi takozh vrahovuyuchi podibnist kontekstu ta osoblivosti vazhlivosti vershin dlya vikonannya kolektivnoyi neodnoznachnosti Ranzhuvannya grafiv abo ranzhuvannya vershin poznachaye taki algoritmi yak PageRank PR i en HITS z metoyu priznachiti ocinku kozhnij vershini yaka predstavlyaye yiyi vidnosnu vazhlivist v zagalnomu grafu Sistema zv yazuvannya sutnostej predstavlena v Alhelbawy et al vikoristovuye PageRank dlya vikonannya kolektivnogo zv yazuvannya sutnostej na grafi znachen a takozh dlya rozuminnya togo yaki ob yekti bilsh tisno pov yazani odin z odnim i predstavlyayut krashe zv yazuvannya Zv yazuvannya matematichnih sutnostej Matematichni virazi simvoli ta formuli mozhut buti pov yazani iz semantichnimi ob yektami napriklad stattyami Vikipediyi abo elementami Vikidanih poznachenimi yih znachennyam prirodnoyi movi Ce vazhlivo dlya viznachennya neodnoznachnosti oskilki simvoli mozhut mati rizne znachennya napriklad E mozhe buti energiyeyu abo matematichnim spodivannyam tosho Proces zv yazuvannya matematichnih ob yektiv mozhna polegshiti ta priskoriti za dopomogoyu rekomendacij shodo anotacij napriklad za dopomogoyu sistemi AnnoMathTeX yaka rozmishena u Wikimedia Shob polegshiti vidtvoryuvanist eksperimentiv z matematichnim zv yazuvannyam ob yektiv MathEL bulo stvoreno etalonnij test MathMLben Vin mistit formuli z Vikipediyi arXiV ta cifrovoyi biblioteki matematichnih funkcij en vid Nacionalnogo institutu standartiv i tehnologiyi NIST Zapisi formul u testi poznachayutsya ta dopovnyuyutsya rozmitkoyu Vikidanih Krim togo dlya dvoh velikih korpusiv iz repozitoriyiv arXiv ta zbMATH bulo doslidzheno rozpodili matematichnih poznachen Matematichni ob yekti interesu MOI viznacheni yak potencijni kandidati na MathEL Okrim posilannya na Vikipediyu Shuboc ta Sharpf ta in opisuyut zv yazuvannya vmistu matematichnoyi formuli z Vikidanimi yak u rozmitci MathML tak i v LaTeX Shob rozshiriti klasichni citati matematichnimi voni zaklikayut do rozrobki avtomatizovanogo MathEL dlya viyavlennya koncepciyi formuli Formula Concept Discovery FCD ta rozpiznavannya koncepciyi formuli Formula Concept Recognition FCR Yih pidhid FCD daye povnotu 68 dlya otrimannya ekvivalentnih predstavlen chastih formul i 72 dlya viluchennya nazvi formuli z navkolishnogo tekstu v nabori danih NTCIR arXiv Div takozh en en en Vityaguvannya informaciyi en Imenovana sutnist Rozpiznavannya imenovanih sutnostej en en en Koreferentnist AnotaciyaPosilannyaHachey Ben Radford Will Nothman Joel Honnibal Matthew Curran James R 1 sichnya 2013 Artificial Intelligence Wikipedia and Semi Structured ResourcesEvaluating Entity Linking with Wikipedia Artificial Intelligence 194 130 150 doi 10 1016 j artint 2012 04 005 M A Khalid V Jijkoun and en 2008 The impact of named entity normalization on information retrieval for question answering nedostupne posilannya Proc ECIR Han Xianpei Sun Le Zhao Jun 2011 Collective Entity Linking in Web Text A Graph based Method Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval ACM 765 774 doi 10 1145 2009916 2010019 Rada Mihalcea and Andras Csomai 2007 Wikify Linking Documents to Encyclopedic Knowledge 20 sichnya 2022 u Wayback Machine Proc CIKM Arhiv originalu za 20 kvitnya 2021 Procitovano 18 travnya 2022 Wikidata Aaron M Cohen 2005 Unsupervised gene protein named entity normalization using automatically extracted dictionaries Proc en ISMB Workshop on Linking Biological Literature Ontologies and Databases Mining Biological Semantics pp 17 24 Shen W Wang J Han J Entity linking with a knowledge base Issues techniques and solutions J IEEE Transactions on Knowledge and Data Engineering 2014 27 2 443 460 Chang Y C Chu C H Su Y C et al PIPE a protein protein interaction passage extraction module for BioCreative challenge J Database 2016 2016 Lou P Jimeno Yepes A Zhang Z et al BioNorm deep learning based event normalization for the curation of reaction databases J Bioinformatics 2020 36 2 611 620 Slawski Bill Arhiv originalu za 21 travnya 2022 Procitovano 18 travnya 2022 Zhou Ming Lv Weifeng Ren Pengjie Wei Furu Tan Chuanqi 2017 Entity Linking for Queries by Searching Wikipedia Sentences Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing en us s 68 77 arXiv 1704 02788 doi 10 18653 v1 D17 1007 Le Quoc Mikolov Tomas 2014 Distributed Representations of Sentences and Documents Proceedings of the 31st International Conference on International Conference on Machine Learning Volume 32 JMLR org II 1188 II 1196 arXiv 1405 4053 Hui Han Hongyuan Zha C Lee Giles Name disambiguation in author citations using a K way spectral clustering method ACM IEEE Joint Conference on Digital Libraries 2005 JCDL 2005 334 343 2005 Arhiv originalu za 1 veresnya 2021 Procitovano 18 chervnya 2022 Parravicini Alberto Patra Rhicheek Bartolini Davide B Santambrogio Marco D 2019 Fast and Accurate Entity Linking via Graph Embedding Proceedings of the 2Nd Joint International Workshop on Graph Data Management Experiences amp Systems GRADES and Network Data Analytics NDA ACM 10 1 10 9 doi 10 1145 3327964 3328499 ISBN 9781450367899 Hoffart Johannes Altun Yasemin Weikum Gerhard 2014 Discovering Emerging Entities with Ambiguous Names Proceedings of the 23rd International Conference on World Wide Web ACM 385 396 doi 10 1145 2566486 2568003 ISBN 9781450327442 Doermann David S Oard Douglas W Lawrie Dawn J Mayfield James McNamee Paul 2011 Cross Language Entity Linking angl Tsai Chen Tse Roth Dan 2016 Proceedings of NAACL HLT 2016 589 598 Arhiv originalu za 10 chervnya 2018 Procitovano 18 travnya 2022 Alhelbawy Ayman Gaizauskas Robert Proceedings of COLING 2014 the 25th International Conference on Computational Linguistics Technical Papers Dublin City University and Association for Computational Linguistics 1544 1555 Arhiv originalu za 8 lyutogo 2019 Procitovano 18 travnya 2022 Hachey Ben Radford Will Nothman Joel Honnibal Matthew Curran James R 2013 Evaluating Entity Linking with Wikipedia Artif Intell 194 130 150 doi 10 1016 j artint 2012 04 005 ISSN 0004 3702 Ji Heng Nothman Joel Hachey Ben Florian Radu 2015 Overview of TAC KBP2015 Tri lingual Entity Discovery and Linking TAC Cucerzan Silviu en us Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning EMNLP CoNLL 708 716 Arhiv originalu za 2 lipnya 2019 Procitovano 18 travnya 2022 Weikum Gerhard Thater Stefan Taneva Bilyana Spaniol Marc Pinkal Manfred Furstenau Hagen Bordino Ilaria Yosef Mohamed Amir Hoffart Johannes 2011 Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing en us 782 792 Arhiv originalu za 2 lipnya 2019 Procitovano 18 travnya 2022 Zwicklbauer Stefan Seifert Christin Granitzer Michael 2016 Robust and Collective Entity Disambiguation Through Semantic Embeddings Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval ACM 425 434 doi 10 1145 2911451 2911535 ISBN 9781450340694 Cucerzan Silviu en us Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning EMNLP CoNLL 708 716 Arhiv originalu za 2 lipnya 2019 Procitovano 18 travnya 2022 Kulkarni Sayali Singh Amit Ramakrishnan Ganesh Chakrabarti Soumen 2009 Collective annotation of Wikipedia entities in web text Proc 15th ACM SIGKDD Int l Conf on Knowledge Discovery and Data Mining KDD doi 10 1145 1557019 1557073 ISBN 9781605584959 Rao Delip McNamee Paul Dredze Mark 2013 Entity Linking Finding Extracted Entities in a Knowledge Base Multi source Multilingual Information Extraction and Summarization Theory and Applications of Natural Language Processing angl Springer Berlin Heidelberg 93 115 doi 10 1007 978 3 642 28569 1 5 ISBN 978 3 642 28568 4 David Milne and Ian H Witten 2008 Learning to link with Wikipedia Proc CIKM Zhang Wei Jian Su Chew Lim Tan 2010 Entity Linking Leveraging Automatically Generated Annotation Proceedings of the 23rd International Conference on Computational Linguistics Coling 2010 Giovanni Yoko Kristianto Goran Topic Akiko Aizawa ta in 2016 Entity Linking for Mathematical Expressions in Scientific Documents International Conference on Asian Digital Libraries Lecture Notes in Computer Science Springer 10075 144 149 doi 10 1007 978 3 319 49304 6 18 ISBN 978 3 319 49303 9 Moritz Schubotz Philipp Scharpf ta in 2018 Introducing MathQA a Math Aware question answering system Information Discovery and Delivery Emerald Publishing Limited 46 4 214 224 arXiv 1907 01642 doi 10 1108 IDD 06 2018 0022 AnnoMathTeX Formula Identifier Annotation Recommender System Arhiv originalu za 28 bereznya 2022 Procitovano 18 chervnya 2022 Philipp Scharpf Ian Mackerracher ta in 17 veresnya 2019 PDF Proceedings of the 13th ACM Conference on Recommender Systems RecSys 2019 532 533 doi 10 1145 3298689 3347042 ISBN 9781450362436 Arhiv originalu PDF za 22 sichnya 2022 Procitovano 18 travnya 2022 Philipp Scharpf Moritz Schubotz Bela Gipp 14 kvitnya 2021 PDF Companion Proceedings of the Web Conference 2021 WWW 21 Companion 602 609 arXiv 2104 05111 doi 10 1145 3442442 3452348 ISBN 9781450383134 Arhiv originalu PDF za 20 sichnya 2022 Procitovano 18 travnya 2022 MathMLben formula benchmark Arhiv originalu za 23 sichnya 2022 Procitovano 18 chervnya 2022 Arhiv originalu za 22 lyutogo 2011 Procitovano 18 chervnya 2022 Arhiv originalu za 15 chervnya 2022 Procitovano 18 chervnya 2022 Andre Greiner Petter Moritz Schubotz Fabian Mueller Corinna Breitinger Howard S Cohl Akiko Aizawa Bela Gipp 2020 PDF Proceedings of the Web Conference 2020 WWW 20 1445 1456 arXiv 2002 02712 doi 10 1145 3366423 3380218 ISBN 9781450370233 Arhiv originalu PDF za 20 sichnya 2022 Procitovano 18 travnya 2022 Moritz Schubotz Andre Greiner Petter Philipp Scharpf Norman Meuschke Howard Cohl Bela Gipp 2018 PDF 18th ACM IEEE on Joint Conference on Digital Libraries 2018 233 242 arXiv 1804 04956 doi 10 1145 3197026 3197058 ISBN 9781450351782 Arhiv originalu PDF za 20 sichnya 2022 Procitovano 18 travnya 2022 Akiko Aizawa Michael Kohlhase Iadh Ounis Moritz Schubotz NTCIR 11 Math 2 Task Overview Proceedings of the 11th NTCIR Conference on Evaluation of Information Access Technologies