Інтелектуальний аналіз тексту (ІАТ, англ. text mining) — напрям інтелектуального аналізу даних (англ. Data Mining) та штучного інтелекту, метою якого є отримання інформації з колекцій текстових документів, ґрунтуючись на застосуванні ефективних, у практичному плані, методів машинного навчання та обробки природної мови. Інтелектуальний аналіз тексту використовує всі ті ж підходи до перероблювання інформації, що й інтелектуальний аналіз даних, однак різниця між цими напрямками проявляється лише в кінцевих методах, а також у тому, що інтелектуальний аналіз даних має справу зі сховищами та базами даних, а не електронними бібліотеками та корпусами текстів.
Завдання інтелектуального аналізу тексту
Ключовими завданнями ІАТ є: категоризація текстів, пошук інформації, обробка змін у колекціях текстів, а також розробка засобів представлення інформації для користувача.
Категоризація документів полягає у зіставленні документів з колекції з однією або декількома групами (класами, кластерами) схожих між собою текстів (наприклад, по темі або стилем). Категоризація може відбуватися як за участю людини, так і без неї.
У першому випадку (класифікація документів), система ІАТ повинна віднести тексти до вже визначених (зручних для неї) класів. Для цього необхідно провести кероване навчання, для чого користувач повинен надати системі ІАТ як перелік класів, так і зразки документів, що належать цим класам.
Другий випадок категоризації називається кластеризацією документів. При цьому система ІАТ повинна сама визначити множину кластерів, за якими можуть бути розподілені тексти, — в машинному навчанні відповідне завдання називається некерованим навчанням. У цьому випадку користувач повинен повідомити системі ІАТ кількість кластерів, на яке йому хотілося б розбити оброблювану колекцію (передбачається, що в алгоритм програми вже закладена процедура вибору ознак).
Текстова аналітика
Термін текстова аналітика описує набір методів лінгвістики, статистики та машинного навчання, які моделюють і структурують інформаційний зміст текстових джерел для бізнес-аналітики (англ. Business intelligence), розвідувального аналізу даних, дослідження, або розслідування. Цей термін приблизно є синонімом інтелектуального аналізу тексту; насправді, у 2004 році Ронен Фельдман змінив термін 2000 року «інтелектуального аналізу тексту» для опису «текстової аналітики». В даний час термін текстової аналітики частіше застосовується в бізнес-середовищі, тоді як «інтелектуальний аналіз тексту», починаючи з 1980-х років, використовується в деяких з найбільш ранніх областей застосування, а саме в дослідженнях у галузі природничих наук та державної розвідки.
Термін «текстова аналітика» також описує застосування текстової аналітики для вирішення бізнес-проблем, незалежно чи в поєднанні з запитом і аналізом впорядкованих, числових даних. Загально відомо, що 80 % інформації, що стосується бізнесу, походить з неструктурованої форми, в першу чергу, з тексту. Ці методи й процеси виявляють і представляють знання — факти, [en] і відносини — які в іншому випадку закодовані в текстовій формі та не піддаються автоматизованій обробці.
Процес текстової аналітики
Підзадачі, що становлять більшу частину аналізу тексту, зазвичай охоплюють:
- Інформаційний пошук, або ідентифікація корпусу є підготовчим етапом: збір, або ідентифікація набору текстових матеріалів для аналізу в Інтернеті, або у вигляді файлової системи, бази даних, або вмісту менеджера корпуса (англ. Corpus manager).
- Хоча деякі системи для аналізу текстів застосовують виключно передові статистичні методи, багато інших застосовують більш широку обробку природної мови, таку як розмічування частин мови (англ. Part-of-speech tagging), синтаксичний аналіз та інші типи лінгвістичного аналізу.
- Розпізнавання іменованих сутностей — це використання географічних довідників або статистичних методів для визначення властивостей названих у тексті: людей, організацій, топонімів, біржових символів, певних скорочень, тощо.
- Усунення неоднозначності — використання контекстних підказок — може знадобитися, щоб вирішити, де, наприклад, слово «Форд» може посилатися на колишнього президента США, виробника транспортного засобу, кінозірку, переправу через річку, або інший об'єкт.
- Розпізнавання ідентифікованих об'єктів: такі функції, як телефонні номери, адреси електронної пошти, кількості (з одиницями) можна розрізняти за допомогою регулярних виразів, або інших збігів шаблонів.
- Кластеризація документів: ідентифікація наборів аналогічних текстових документів.
- Кореферентність (англ. Coreference): ідентифікація іменників і інших термінів, що відносяться до одного і того ж об'єкта.
- Зв'язок, факт і подія Видобутку: ідентифікація асоціацій між сутностями та інша інформація в тексті.
- Аналіз тональності тексту передбачає розрізнення суб'єктивного (на відміну від фактичного) матеріалу і вилучення різних форм інформаційної поведінки: почуттів, думок, настроїв і емоцій. Методи аналізу текстів є корисними для аналізу, настрою на рівні суб'єкта, а також для розрізнення власника думки та об'єкта думки.
- Кількісний аналіз тексту — це сукупність методів, що випливають з соціальних наук, де або людина, або комп'ютер витягують семантичні, або граматичні відносини між словами, щоб з'ясувати значення, або стилістичні закономірності, зазвичай, випадкового особистого тексту з метою психологічного профілювання (англ. psychological profiling), тощо.
Застосування
Технологія інтелектуального аналізу тексту в даний час широко застосовується до широкого кола урядових, дослідницьких та бізнес-потреб. Всі три групи можуть використовувати інтелектуальний аналіз тексту для управління документами та пошуку документів, що стосуються їх повсякденної діяльності. Професіонали з правових питань можуть використовувати інтелектуальний аналіз тексту для [en]. Уряди і військові групи використовують інтелектуальний аналіз тексту для цілей національної безпеки та розвідки. Наукові дослідники об'єднують підходи інтелектуального аналізу тексту в зусиллях для організації великих наборів текстових даних (тобто, розв'язання проблеми неструктурованих даних), для визначення ідей, переданих через текст (наприклад, аналіз тональності тексту у соціальних мережах) і підтримувати наукові відкриття в галузі природничих наук та в галузібіоінформатики. У бізнесі інтелектуальний аналіз тексту використовується для підтримки конкурентної розвідки та автоматичного розміщення оголошень серед багатьох інших заходів.
Безпека
Багато програмних пакетів інтелектуального аналізу тексту використовуються в [en], особливо для моніторингу та аналізу текстових джерел в Інтернеті, таких як інтернет-новини, блоги, тощо. Інтелектуальний аналіз тексту також присутній у вивченні шифрування/дешифрування тексту.
Біомедицина
Було описано діапазон застосування інтелектуального аналізу тексту в біомедичній літературі, який містить в собі обчислювальні підходи для допомоги в дослідженнях з приєднання білків (англ. protein docking),взаємодій білків, та асоціацій білкових хвороб (англ. protein-disease associations). Крім того, за наявності великих наборів даних пацієнтів у клінічній сфері, наборів даних демографічної інформації в популяційних дослідженнях та в звітах про побічні ефекти, інтелектуальний аналіз тексту може полегшити проведення клінічних досліджень та якість лікування. Алгоритми інтелектуального аналізу тексту можуть полегшити стратифікацію та індексацію конкретних клінічних подій у великих текстових наборах даних пацієнтів з симптомами, побічними ефектами та супутніми захворюваннями з електронних медичних записів, звітів про події та звітів з конкретних діагностичних тестів. Одним з онлайн застосування інтелектуального аналізу текстів у біомедичній літературі є [en], загальнодоступна пошукова система, яка поєднує в собі біомедичний інтелектуальний аналіз тексту з візуалізацією мережі. GoPubMed — це пошукова система на основі знань для біомедичних текстів. Методи інтелектуального аналізу тексту також дозволяють витягувати невідомі знання з неструктурованих документів у клінічній сфері.
Програмне забезпечення
Методи та програмне забезпечення для інтелектуального аналізу тексту досліджується та розробляється відомими компаніями, серед яких IBM та Microsoft, з метою подальшої автоматизації процесу аналізу, а також різними фірмами, що працюють у сфері пошуку та індексації в цілому, як спосіб поліпшення своїх результатів. У державному секторі великі зусилля були спрямовані на створення програмного забезпечення щодо відстеження та моніторингу [en].
Засоби масової інформації
Інтелектуальний аналіз тексту використовується великими медіа-компаніями, такими як [en], для уточнення інформації та надання читачам більшого досвіду пошуку, що, у свою чергу, збільшує «липкість» сайту та дохід. Крім того, в серверній частині редактори отримують можливість використовувати, пов'язувати та поширювати новини через властивості, значно збільшуючи можливості для монетизації вмісту.
Бізнес і маркетинг
Інтелектуальний аналіз тексту починають використовувати в маркетингу, зокрема, в аналітичному управлінні відносинами з клієнтами. Coussement і Van den Poel (2008) застосовують його для поліпшення моделей [en] для збивання клієнтів. Інтелектуальний аналіз тексту також застосовується в прогнозі дохідності акцій.
Аналіз тональності тексту
Аналіз тональності тексту може включати аналіз огляду фільмів для оцінки того, наскільки сприятливим є огляд фільму. Такий аналіз може потребувати маркованого набору даних, або маркування впливу слів. Для WordNet і [en] були створені ресурси для оцінки афективності слів та концепцій, відповідно. Текст також використовується для виявлення емоцій у відповідній області афективних обчислень. Текстові підходи до афективних обчислень використовувалися на кількох корпусах, таких як оцінки студентів, дитячі розповіді та новини.
Аналіз наукової літератури
Питання інтелектуального аналізу тексту має важливе значення для видавців, які мають великі бази даних інформації, які потребують індексації для пошуку. Особливо це стосується наукових дисциплін, у яких високоспецифічна інформація часто міститься в письмовому тексті. Таким чином, були вжиті ініціативи, такі як пропозиція Nature для відкритого інтерфейсу інтелектуального аналізу тексту (англ. Open Text Mining Interface (OTMI)) та Національний інститут охорони здоров'я в США Document Type Definition (DTD), які забезпечують семантичні сигнали машинам для відповіді на конкретні запити, що містяться в тексті без видалення перешкоди для публічного доступу.
Академічні установи також взяли участь в ініціативі з інтелектуального аналізу тексту:
- [en] є першим у світі відкритим фондом інтелектуального аналізу тексту. Національний центр інтелектуального аналізу тексту управляється Манчестерським університетом, у тісній співпраці з Лабораторією Tsujii,Токійським університетом. Національний центр інтелектуального аналізу тексту надає індивідуальні інструменти, дослідницькі засоби та надає консультації академічній спільноті. Вони фінансуються [en] (JISC) і двома [en] Великої Британії ([en] & [en]). З початку інтелектуальний аналіз тексту фокусувався в біологічних і біомедичних науках, але дослідження з того часу розширилися в області суспільних наук.
- У Сполучених Штатах, [en] в Університеті Каліфорнії в Берклі розробляє програму під назвою BioText, щоб допомогти дослідникам біології в інтелектуальному аналізі тексту.
- [en] (TAPoR), який зараз розміщений в Альбертському університеті, є науковим проектом для каталогізації додатків для аналізу тексту і створення шлюзу для нових дослідників.
Методи аналізу наукової літератури
Обчислювальні методи розроблені для пошуку інформації в науковій літературі. Опубліковані підходи включають методи пошуку, визначення новизни і уточнення омонімів серед технічних звітів.
Цифрові гуманітарні науки та обчислювальна соціологія
Автоматичний аналіз великих текстових корпусів створив можливість для вчених проаналізувати мільйони документів на різних мовах з дуже обмеженим ручним втручанням. Основними технологіями, що надаються, є розбір, машинний переклад, категоризація тем і машинне навчання.
Автоматичний синтаксичний аналіз текстових корпусів дозволив у величезному масштабі витягти суб'єкти та їхні реляційні мережі, перетворивши текстові дані в мережеві дані. Отримані мережі, які можуть містити тисячі вузлів, потім аналізуються за допомогою інструментів з теорії мереж для визначення ключових суб'єктів, ключових спільнот, або сторін, а також загальних властивостей, таких як надійність чи структурна стійкість мережі в цілому, або центральність окремих вузлів. Це автоматизує підхід, впроваджений кількісним описовим аналізом, за допомогою якого об'єкти-дієслово-об'єктні трійні ідентифікуються з парами суб'єктів, пов'язаних дією, або парами, утвореними суб'єктом-об'єктом.
Контент-аналіз вже давно є традиційною частиною соціальних наук та медіа-досліджень. Автоматизація контент-аналізу дозволила революції «великих даних» відбутися в цій галузі, з дослідженнями в соціальних медіа і зміст газет, які включають мільйони новин. Ґендерна упередженість, легкочитність, подібність змісту, переваги читача і навіть настрій були проаналізовані на основі методів інтелектуального аналізу тексту над мільйонами документів. Аналіз легкочитності, гендерної упередженості та зміщення теми був продемонстрований у Flaounas et al в якому показують, як різні теми мають різні гендерні упередження та рівні легкочитності; Також було продемонстровано можливість виявлення моделей настрою у великій кількості населення шляхом аналізу вмісту Twitter.
Програмне забезпечення
Комп'ютерні програми для інтелектуального аналізу тексту доступні у багатьох комерційних та відкритих компаніях та джерелах. Див. [en].
Закон про інтелектуальну власність
Ситуація в Європі
Через відсутність гнучкості в європейському законодавстві про авторські права і бази даних, інтелектуальний аналіз авторських робіт (добування даних) без дозволу власника авторських прав є незаконним. У Великій Британії у 2014 році за рекомендацією уряд змінив закон про авторське право, щоб дозволити інтелектуальний аналіз тексту, як [en]. Це була лише друга країна у світі після [en], яка у 2009 році запровадила інтелектуальний аналіз, як виняток. Однак, через обмеження Директиви про авторське право, виняток Великої Британії дозволяє інтелектуальний аналіз контенту лише для некомерційних цілей. Закон Великої Британії про авторське право не дозволяє перекрити це положення договірними умовами.
Європейська комісія сприяла обговоренню зацікавлених сторін щодо інтелектуального аналізу тексту та даних у 2013 році під назвою «Ліцензії для Європи». Той факт, що акцент на розв'язанні цього юридичного питання полягав у видачі ліцензій, а не на обмеженнях та винятках із закону про авторське право, призвело до того, що представники університетів, дослідників, бібліотек, груп громадянського суспільства та видавців з відкритим доступом залишили діалог із зацікавленими сторонами у травні 2013 року.
Ситуація в США
На відміну від Європи, через гнучкість американського закону про авторське право і, зокрема, сумлінного використання, інтелектуальний аналіз тексту в Америці, як і в інших країнах із сумлінним використанням, таких як Ізраїль, Тайвань і Південна Корея, вважається законним. Оскільки інтелектуальний аналіз тексту є перетворювальним — це означає, що він не витісняє оригінальну роботу, а вважається законним при сумлінному використанні. Наприклад, як частина [en], головний суддя у справі постановив, що проект оцифрування книг з авторськими правами в Google був законним, частково через перетворення, яке показує проект оцифрування — одним із варіантів інтелектуального аналізу тексту та даних.
Вплив
До недавнього часу вебсайти найчастіше використовували текстовий пошук, який знаходить лише документи, що містять конкретні визначені користувачем слова, або фрази. Тепер завдяки використанню семантичної павутини, інтелектуальний аналіз тексту може знайти вміст, заснований на сенсі та контексті (а не просто на конкретному слові). Крім того, програмне забезпечення інтелектуального аналізу тексту можна використовувати для створення великих досьє інформації про конкретних людей та події. Наприклад, великі набори даних на основі отриманих даних зі звітів новин, можуть бути побудовані для полегшення аналізу соціальних мереж, або контррозвідки. Фактично, програмне забезпечення інтелектуального аналізу тексту можна використовувати в якості, подібної до аналітичної розвідки, або дослідницької бібліотеки, хоча і з більш обмеженим аналізом. Інтелектуальний аналіз тексту також використовується в деяких фільтрах спаму для електронної пошти, як спосіб визначення характеристик повідомлень, які, ймовірно, будуть рекламою, або іншим небажаним матеріалом. Інтелектуальний аналіз тексту відіграє важливу роль у визначенні [en].
Майбутнє
Зростає інтерес до багатомовного інтелектуального аналізу даних: здатність отримувати інформацію між мовами та групувати подібні об'єкти з різних мовних джерел відповідно до їхнього значення.
Протягом десятиліть відома проблема використання великої частини «неструктурованої» інформації, яка утворюється на підприємствах. Її визнано ще в самому ранньому визначенні бізнес-аналітики (англ. Business intelligence), в жовтні 1958 р. в статті [en] «Система бізнес-аналітики» в журналі IBM, яка описує систему, що буде:
«… використовувати машини для обробки даних для автоматичного абстрагування та автоматичного кодування документів і для створення профілів інтересів для кожної 'точки дії' в організації. І вхідні, і внутрішні документи автоматично абстрагуються, характеризуються словом-шаблоном і відправляються автоматично до відповідних точок дії.»
Проте, оскільки інформаційні системи управління розвивалися з 1960-х років, і коли з'явилася бізнес-аналітика в 80-х і 90-х роках як категорія програмного забезпечення та сфера практичного застосування, акцент робився на числові дані, що зберігаються в реляційних базах даних. Це не дивно: текст у «неструктурованих» документах важко обробляти. Виникнення текстової аналітики в її нинішній формі випливає з перефокусування досліджень наприкінці 1990-х років від розробки алгоритмів до застосування, як описав професор Марті А. Херст у статті «Розпізнавання текстових даних»:
Протягом майже десятиліття обчислювальне лінгвістичне товариство розглядало великі текстові колекції, як ресурс, який необхідно використовувати для створення кращих алгоритмів аналізу тексту. У цій роботі я спробував запровадити новий наголос: використання великих колекцій онлайн-тексту для виявлення нових фактів і тенденцій щодо самого світу. Я вважаю, що для досягнення прогресу, нам не потрібно повністю штучний інтелектуальний аналіз тексту; скоріше, поєднання комп'ютерного і призначеного для користувача аналізу може відкрити двері до нових цікавих результатів.
У заяві Херста 1999 року говориться про необхідність якісного опису стану технології та практики аналізу текстів.
Примітки
- Fagan, Stephen; Gençay, Ramazan (2010), An introduction to textual econometrics, у Ullah, Aman; Giles, David E. A. (ред.), Handbook of Empirical Economics and Finance, CRC Press, с. 133—153, ISBN . P. 139: "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."
- Berry, 2003.
- [1] [ 29 листопада 2009 у Wayback Machine.]
- . Cs.cmu.edu. Архів оригіналу за 3 березня 2019. Процитовано 23 лютого 2015.
- [2] [ 3 березня 2012 у Wayback Machine.]
- Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). Natural language access to structured text. Proceedings of the 9th conference on Computational linguistics. Т. 1. с. 127—32. doi:10.3115/991813.991833.
- . Breakthrough Analysis. August 2008. Архів оригіналу за 12 вересня 2014. Процитовано 23 лютого 2015.
- Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 лютого 2017). A New Evolving Tree-Based Model with Local Re-learning for Document Clustering and Visualization. Neural Processing Letters (англ.). 46 (2): 379—409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621.
- . Breakthrough Analysis. 14 червня 2010. Архів оригіналу за 20 лютого 2015. Процитовано 23 лютого 2015.
- Mehl, Matthias R. (2006). Quantitative Text Analysis. Handbook of multimethod measurement in psychology. с. 141. doi:10.1037/11383-011. ISBN .
- Pang, Bo; (2008). Opinion Mining and Sentiment Analysis. Foundations and Trends® in Information Retrieval. 2 (1–2): 1—135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669.
- Paltoglou, Georgios; Thelwall, Mike (1 вересня 2012). Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media. ACM Transactions on Intelligent Systems and Technology (TIST). 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904.
- . alt.qcri.org (амер.). Архів оригіналу за 24 березня 2019. Процитовано 2 жовтня 2018.
- Zanasi, Alessandro (2009). Virtual Weapons for Real Wars: Text Mining for National Security. Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Т. 53. с. 53. doi:10.1007/978-3-540-88181-0_7. ISBN .
- Cohen, K. Bretonnel; Hunter, Lawrence (2008). Getting Started in Text Mining. PLoS Computational Biology. 4 (1): e20. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). Text mining for protein docking. PLoS Computational Biology. 11 (12): e1004630. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.
{{}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом () - Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). Protein–protein interaction predictions using text mining methods. Methods. 74: 47—53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
- Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18 жовтня 2016). The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible. Nucleic Acids Research (англ.). 45 (D1): D362—D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.
- Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 жовтня 2018). Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease. American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910—H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
- Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 серпня 2018). Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting. Journal of Biomedical Informatics. 86: 49—58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
- Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). A literature network of human genes for high-throughput analysis of gene expression. Nature Genetics. 28 (1): 21—8. doi:10.1038/ng0501-21. PMID 11326270.
- Masys, Daniel R. (2001). Linking microarray data to the literature. Nature Genetics. 28 (1): 9—10. doi:10.1038/ng0501-9. PMID 11326264.
- Renganathan, Vinaitheerthan (2017). Text Mining in Biomedical Domain with Emphasis on Document Clustering. Healthcare Informatics Research. 23 (3): 141—146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.
- [3] [ 4 жовтня 2013 у Wayback Machine.]
- . Medallia. Архів оригіналу за 8 листопада 2017. Процитовано 23 лютого 2015.
- Coussement, Kristof; Van Den Poel, Dirk (2008). . Information & Management. 45 (3): 164—74. CiteSeerX 10.1.1.113.3238. doi:10.1016/j.im.2008.01.005. Архів оригіналу за 15 грудня 2019. Процитовано 19 травня 2022.
- Coussement, Kristof; Van Den Poel, Dirk (2008). Improving customer complaint management by automatic email classification using linguistic style features as predictors. Decision Support Systems. 44 (4): 870—82. doi:10.1016/j.dss.2007.10.010.
- Ramiro H. Gálvez; Agustín Gravano (2017). Assessing the usefulness of online message board mining in automatic stock prediction systems. Journal of Computational Science. 19: 1877—7503. doi:10.1016/j.jocs.2017.01.001.
- Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). Thumbs up?. Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Т. 10. с. 79—86. doi:10.3115/1118693.1118704.
- Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). (PDF). PsychNology Journal. 2 (1): 61—83. Архів оригіналу (PDF) за 20 вересня 2018. Процитовано 29 березня 2019.
- Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain (2010). (PDF). Proceedings of AAAI CSK. с. 14—18. Архів оригіналу (PDF) за 29 березня 2019. Процитовано 29 березня 2019.
- Calvo, Rafael A; d'Mello, Sidney (2010). Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications. IEEE Transactions on Affective Computing. 1 (1): 18—37. doi:10.1109/T-AFFC.2010.1.
- . Manchester.ac.uk. Архів оригіналу за 27 січня 2013. Процитовано 23 лютого 2015.
- . Tsujii.is.s.u-tokyo.ac.jp. Архів оригіналу за 7 березня 2012. Процитовано 23 лютого 2015.
- . UTokyo. Архів оригіналу за 26 липня 2020. Процитовано 23 лютого 2015.
- Shen, Jiaming; Xiao, Jinfeng; He, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (27 червня 2018). Entity Set Search of Scientific Literature: An Unsupervised Ranking Approach. ACM. с. 565—574. doi:10.1145/3209978.3210055. ISBN .
- Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (6 лютого 2017). The beauty of brimstone butterfly: novelty of patents identified by near environment analysis based on text mining. Scientometrics (англ.). 111 (1): 103—115. doi:10.1007/s11192-017-2267-4. ISSN 0138-9130.
- Roll, Uri; Correia, Ricardo A.; Berger-Tal, Oded (10 березня 2018). Using machine learning to disentangle homonyms in large text corpora. Conservation Biology (англ.). 32 (3): 716—724. doi:10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438.
- Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015
- Network analysis of narrative content in large corpora; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
- Quantitative Narrative Analysis; Roberto Franzosi; Emory University © 2010
- Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Team, FindMyPast Newspaper; Cristianini, Nello (9 січня 2017). . Proceedings of the National Academy of Sciences (англ.). 114 (4): E457—E465. doi:10.1073/pnas.1606380114. ISSN 0027-8424. PMC 5278459. PMID 28069962. Архів оригіналу за 15 листопада 2019. Процитовано 31 березня 2019.
- I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, The Structure of EU Mediasphere, PLoS ONE, Vol. 5(12), pp. e14243, 2010.
- Nowcasting Events from the Social Web with Statistical Learning V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
- NOAM: news outlets analysis and monitoring system; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. of the 2011 ACM SIGMOD international conference on Management of data
- Automatic discovery of patterns in media content, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
- I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, RESEARCH METHODS IN THE AGE OF DIGITAL JOURNALISM, Digital Journalism, Routledge, 2012
- Circadian Mood Variations in Twitter Content; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.
- Effects of the Recession on Public Mood in the UK; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) session on Social Media Applications
- [4] [ 9 червня 2014 у Wayback Machine.]
- . European Commission. Архів оригіналу за 23 березня 2013. Процитовано 14 листопада 2014.
- . . 25 квітня 2013. Архів оригіналу за 29 листопада 2014. Процитовано 14 листопада 2014.
- . Lexology.com. Antonelli Law Ltd. Архів оригіналу за 29 листопада 2014. Процитовано 14 листопада 2014.
- . Beyenetwork. 30 жовтня 2007. Архів оригіналу за 8 грудня 2017. Процитовано 23 лютого 2015.
- Hearst, Marti A. (1999). . Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. с. 3—10. doi:10.3115/1034678.1034679. ISBN . Архів оригіналу за 22 квітня 2019. Процитовано 10 квітня 2019.
Джерела
- Survey of Text Mining I: Clustering, Classification, and Retrieval / Ed. by M. W. Berry. — 2004. — Springer, 2003. — 261 с. — .
- Aggarwal C. C., Zhai C. Mining Text Data. — Springer, 2012. — 527 с. — .
- Do Prado H. A. Emerging Technologies of Text Mining: Techniques and Applications / Ed. by H. A. Do Prado, E. Ferneda. — Idea Group Reference. — Springer, 2007. — 358 с. — .
Ця стаття містить правописні, лексичні, граматичні, стилістичні або інші мовні помилки, які треба виправити. (листопад 2019) |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Intelektualnij analiz tekstu IAT angl text mining napryam intelektualnogo analizu danih angl Data Mining ta shtuchnogo intelektu metoyu yakogo ye otrimannya informaciyi z kolekcij tekstovih dokumentiv gruntuyuchis na zastosuvanni efektivnih u praktichnomu plani metodiv mashinnogo navchannya ta obrobki prirodnoyi movi Intelektualnij analiz tekstu vikoristovuye vsi ti zh pidhodi do pereroblyuvannya informaciyi sho j intelektualnij analiz danih odnak riznicya mizh cimi napryamkami proyavlyayetsya lishe v kincevih metodah a takozh u tomu sho intelektualnij analiz danih maye spravu zi shovishami ta bazami danih a ne elektronnimi bibliotekami ta korpusami tekstiv Zavdannya intelektualnogo analizu tekstuKlyuchovimi zavdannyami IAT ye kategorizaciya tekstiv poshuk informaciyi obrobka zmin u kolekciyah tekstiv a takozh rozrobka zasobiv predstavlennya informaciyi dlya koristuvacha Kategorizaciya dokumentiv polyagaye u zistavlenni dokumentiv z kolekciyi z odniyeyu abo dekilkoma grupami klasami klasterami shozhih mizh soboyu tekstiv napriklad po temi abo stilem Kategorizaciya mozhe vidbuvatisya yak za uchastyu lyudini tak i bez neyi U pershomu vipadku klasifikaciya dokumentiv sistema IAT povinna vidnesti teksti do vzhe viznachenih zruchnih dlya neyi klasiv Dlya cogo neobhidno provesti kerovane navchannya dlya chogo koristuvach povinen nadati sistemi IAT yak perelik klasiv tak i zrazki dokumentiv sho nalezhat cim klasam Drugij vipadok kategorizaciyi nazivayetsya klasterizaciyeyu dokumentiv Pri comu sistema IAT povinna sama viznachiti mnozhinu klasteriv za yakimi mozhut buti rozpodileni teksti v mashinnomu navchanni vidpovidne zavdannya nazivayetsya nekerovanim navchannyam U comu vipadku koristuvach povinen povidomiti sistemi IAT kilkist klasteriv na yake jomu hotilosya b rozbiti obroblyuvanu kolekciyu peredbachayetsya sho v algoritm programi vzhe zakladena procedura viboru oznak Tekstova analitikaTermin tekstova analitika opisuye nabir metodiv lingvistiki statistiki ta mashinnogo navchannya yaki modelyuyut i strukturuyut informacijnij zmist tekstovih dzherel dlya biznes analitiki angl Business intelligence rozviduvalnogo analizu danih doslidzhennya abo rozsliduvannya Cej termin priblizno ye sinonimom intelektualnogo analizu tekstu naspravdi u 2004 roci Ronen Feldman zminiv termin 2000 roku intelektualnogo analizu tekstu dlya opisu tekstovoyi analitiki V danij chas termin tekstovoyi analitiki chastishe zastosovuyetsya v biznes seredovishi todi yak intelektualnij analiz tekstu pochinayuchi z 1980 h rokiv vikoristovuyetsya v deyakih z najbilsh rannih oblastej zastosuvannya a same v doslidzhennyah u galuzi prirodnichih nauk ta derzhavnoyi rozvidki Termin tekstova analitika takozh opisuye zastosuvannya tekstovoyi analitiki dlya virishennya biznes problem nezalezhno chi v poyednanni z zapitom i analizom vporyadkovanih chislovih danih Zagalno vidomo sho 80 informaciyi sho stosuyetsya biznesu pohodit z nestrukturovanoyi formi v pershu chergu z tekstu Ci metodi j procesi viyavlyayut i predstavlyayut znannya fakti en i vidnosini yaki v inshomu vipadku zakodovani v tekstovij formi ta ne piddayutsya avtomatizovanij obrobci Proces tekstovoyi analitikiPidzadachi sho stanovlyat bilshu chastinu analizu tekstu zazvichaj ohoplyuyut Informacijnij poshuk abo identifikaciya korpusu ye pidgotovchim etapom zbir abo identifikaciya naboru tekstovih materialiv dlya analizu v Interneti abo u viglyadi fajlovoyi sistemi bazi danih abo vmistu menedzhera korpusa angl Corpus manager Hocha deyaki sistemi dlya analizu tekstiv zastosovuyut viklyuchno peredovi statistichni metodi bagato inshih zastosovuyut bilsh shiroku obrobku prirodnoyi movi taku yak rozmichuvannya chastin movi angl Part of speech tagging sintaksichnij analiz ta inshi tipi lingvistichnogo analizu Rozpiznavannya imenovanih sutnostej ce vikoristannya geografichnih dovidnikiv abo statistichnih metodiv dlya viznachennya vlastivostej nazvanih u teksti lyudej organizacij toponimiv birzhovih simvoliv pevnih skorochen tosho Usunennya neodnoznachnosti vikoristannya kontekstnih pidkazok mozhe znadobitisya shob virishiti de napriklad slovo Ford mozhe posilatisya na kolishnogo prezidenta SShA virobnika transportnogo zasobu kinozirku perepravu cherez richku abo inshij ob yekt Rozpiznavannya identifikovanih ob yektiv taki funkciyi yak telefonni nomeri adresi elektronnoyi poshti kilkosti z odinicyami mozhna rozriznyati za dopomogoyu regulyarnih viraziv abo inshih zbigiv shabloniv Klasterizaciya dokumentiv identifikaciya naboriv analogichnih tekstovih dokumentiv Koreferentnist angl Coreference identifikaciya imennikiv i inshih terminiv sho vidnosyatsya do odnogo i togo zh ob yekta Zv yazok fakt i podiya Vidobutku identifikaciya asociacij mizh sutnostyami ta insha informaciya v teksti Analiz tonalnosti tekstu peredbachaye rozriznennya sub yektivnogo na vidminu vid faktichnogo materialu i viluchennya riznih form informacijnoyi povedinki pochuttiv dumok nastroyiv i emocij Metodi analizu tekstiv ye korisnimi dlya analizu nastroyu na rivni sub yekta a takozh dlya rozriznennya vlasnika dumki ta ob yekta dumki Kilkisnij analiz tekstu ce sukupnist metodiv sho viplivayut z socialnih nauk de abo lyudina abo komp yuter vityaguyut semantichni abo gramatichni vidnosini mizh slovami shob z yasuvati znachennya abo stilistichni zakonomirnosti zazvichaj vipadkovogo osobistogo tekstu z metoyu psihologichnogo profilyuvannya angl psychological profiling tosho ZastosuvannyaTehnologiya intelektualnogo analizu tekstu v danij chas shiroko zastosovuyetsya do shirokogo kola uryadovih doslidnickih ta biznes potreb Vsi tri grupi mozhut vikoristovuvati intelektualnij analiz tekstu dlya upravlinnya dokumentami ta poshuku dokumentiv sho stosuyutsya yih povsyakdennoyi diyalnosti Profesionali z pravovih pitan mozhut vikoristovuvati intelektualnij analiz tekstu dlya en Uryadi i vijskovi grupi vikoristovuyut intelektualnij analiz tekstu dlya cilej nacionalnoyi bezpeki ta rozvidki Naukovi doslidniki ob yednuyut pidhodi intelektualnogo analizu tekstu v zusillyah dlya organizaciyi velikih naboriv tekstovih danih tobto rozv yazannya problemi nestrukturovanih danih dlya viznachennya idej peredanih cherez tekst napriklad analiz tonalnosti tekstu u socialnih merezhah i pidtrimuvati naukovi vidkrittya v galuzi prirodnichih nauk ta v galuzibioinformatiki U biznesi intelektualnij analiz tekstu vikoristovuyetsya dlya pidtrimki konkurentnoyi rozvidki ta avtomatichnogo rozmishennya ogoloshen sered bagatoh inshih zahodiv Bezpeka Bagato programnih paketiv intelektualnogo analizu tekstu vikoristovuyutsya v en osoblivo dlya monitoringu ta analizu tekstovih dzherel v Interneti takih yak internet novini blogi tosho Intelektualnij analiz tekstu takozh prisutnij u vivchenni shifruvannya deshifruvannya tekstu Biomedicina Bulo opisano diapazon zastosuvannya intelektualnogo analizu tekstu v biomedichnij literaturi yakij mistit v sobi obchislyuvalni pidhodi dlya dopomogi v doslidzhennyah z priyednannya bilkiv angl protein docking vzayemodij bilkiv ta asociacij bilkovih hvorob angl protein disease associations Krim togo za nayavnosti velikih naboriv danih paciyentiv u klinichnij sferi naboriv danih demografichnoyi informaciyi v populyacijnih doslidzhennyah ta v zvitah pro pobichni efekti intelektualnij analiz tekstu mozhe polegshiti provedennya klinichnih doslidzhen ta yakist likuvannya Algoritmi intelektualnogo analizu tekstu mozhut polegshiti stratifikaciyu ta indeksaciyu konkretnih klinichnih podij u velikih tekstovih naborah danih paciyentiv z simptomami pobichnimi efektami ta suputnimi zahvoryuvannyami z elektronnih medichnih zapisiv zvitiv pro podiyi ta zvitiv z konkretnih diagnostichnih testiv Odnim z onlajn zastosuvannya intelektualnogo analizu tekstiv u biomedichnij literaturi ye en zagalnodostupna poshukova sistema yaka poyednuye v sobi biomedichnij intelektualnij analiz tekstu z vizualizaciyeyu merezhi GoPubMed ce poshukova sistema na osnovi znan dlya biomedichnih tekstiv Metodi intelektualnogo analizu tekstu takozh dozvolyayut vityaguvati nevidomi znannya z nestrukturovanih dokumentiv u klinichnij sferi Programne zabezpechennya Metodi ta programne zabezpechennya dlya intelektualnogo analizu tekstu doslidzhuyetsya ta rozroblyayetsya vidomimi kompaniyami sered yakih IBM ta Microsoft z metoyu podalshoyi avtomatizaciyi procesu analizu a takozh riznimi firmami sho pracyuyut u sferi poshuku ta indeksaciyi v cilomu yak sposib polipshennya svoyih rezultativ U derzhavnomu sektori veliki zusillya buli spryamovani na stvorennya programnogo zabezpechennya shodo vidstezhennya ta monitoringu en Zasobi masovoyi informaciyi Intelektualnij analiz tekstu vikoristovuyetsya velikimi media kompaniyami takimi yak en dlya utochnennya informaciyi ta nadannya chitacham bilshogo dosvidu poshuku sho u svoyu chergu zbilshuye lipkist sajtu ta dohid Krim togo v servernij chastini redaktori otrimuyut mozhlivist vikoristovuvati pov yazuvati ta poshiryuvati novini cherez vlastivosti znachno zbilshuyuchi mozhlivosti dlya monetizaciyi vmistu Biznes i marketing Intelektualnij analiz tekstu pochinayut vikoristovuvati v marketingu zokrema v analitichnomu upravlinni vidnosinami z kliyentami Coussement i Van den Poel 2008 zastosovuyut jogo dlya polipshennya modelej en dlya zbivannya kliyentiv Intelektualnij analiz tekstu takozh zastosovuyetsya v prognozi dohidnosti akcij Analiz tonalnosti tekstu Dokladnishe Analiz tonalnosti tekstu Analiz tonalnosti tekstu mozhe vklyuchati analiz oglyadu filmiv dlya ocinki togo naskilki spriyatlivim ye oglyad filmu Takij analiz mozhe potrebuvati markovanogo naboru danih abo markuvannya vplivu sliv Dlya WordNet i en buli stvoreni resursi dlya ocinki afektivnosti sliv ta koncepcij vidpovidno Tekst takozh vikoristovuyetsya dlya viyavlennya emocij u vidpovidnij oblasti afektivnih obchislen Tekstovi pidhodi do afektivnih obchislen vikoristovuvalisya na kilkoh korpusah takih yak ocinki studentiv dityachi rozpovidi ta novini Analiz naukovoyi literaturi Pitannya intelektualnogo analizu tekstu maye vazhlive znachennya dlya vidavciv yaki mayut veliki bazi danih informaciyi yaki potrebuyut indeksaciyi dlya poshuku Osoblivo ce stosuyetsya naukovih disciplin u yakih visokospecifichna informaciya chasto mistitsya v pismovomu teksti Takim chinom buli vzhiti iniciativi taki yak propoziciya Nature dlya vidkritogo interfejsu intelektualnogo analizu tekstu angl Open Text Mining Interface OTMI ta Nacionalnij institut ohoroni zdorov ya v SShA Document Type Definition DTD yaki zabezpechuyut semantichni signali mashinam dlya vidpovidi na konkretni zapiti sho mistyatsya v teksti bez vidalennya pereshkodi dlya publichnogo dostupu Akademichni ustanovi takozh vzyali uchast v iniciativi z intelektualnogo analizu tekstu en ye pershim u sviti vidkritim fondom intelektualnogo analizu tekstu Nacionalnij centr intelektualnogo analizu tekstu upravlyayetsya Manchesterskim universitetom u tisnij spivpraci z Laboratoriyeyu Tsujii Tokijskim universitetom Nacionalnij centr intelektualnogo analizu tekstu nadaye individualni instrumenti doslidnicki zasobi ta nadaye konsultaciyi akademichnij spilnoti Voni finansuyutsya en JISC i dvoma en Velikoyi Britaniyi en amp en Z pochatku intelektualnij analiz tekstu fokusuvavsya v biologichnih i biomedichnih naukah ale doslidzhennya z togo chasu rozshirilisya v oblasti suspilnih nauk U Spoluchenih Shtatah en v Universiteti Kaliforniyi v Berkli rozroblyaye programu pid nazvoyu BioText shob dopomogti doslidnikam biologiyi v intelektualnomu analizi tekstu en TAPoR yakij zaraz rozmishenij v Albertskomu universiteti ye naukovim proektom dlya katalogizaciyi dodatkiv dlya analizu tekstu i stvorennya shlyuzu dlya novih doslidnikiv Metodi analizu naukovoyi literaturi Obchislyuvalni metodi rozrobleni dlya poshuku informaciyi v naukovij literaturi Opublikovani pidhodi vklyuchayut metodi poshuku viznachennya novizni i utochnennya omonimiv sered tehnichnih zvitiv Cifrovi gumanitarni nauki ta obchislyuvalna sociologiya Avtomatichnij analiz velikih tekstovih korpusiv stvoriv mozhlivist dlya vchenih proanalizuvati miljoni dokumentiv na riznih movah z duzhe obmezhenim ruchnim vtruchannyam Osnovnimi tehnologiyami sho nadayutsya ye rozbir mashinnij pereklad kategorizaciya tem i mashinne navchannya Opovidalna merezha viboriv v SShA v 2012 Avtomatichnij sintaksichnij analiz tekstovih korpusiv dozvoliv u velicheznomu masshtabi vityagti sub yekti ta yihni relyacijni merezhi peretvorivshi tekstovi dani v merezhevi dani Otrimani merezhi yaki mozhut mistiti tisyachi vuzliv potim analizuyutsya za dopomogoyu instrumentiv z teoriyi merezh dlya viznachennya klyuchovih sub yektiv klyuchovih spilnot abo storin a takozh zagalnih vlastivostej takih yak nadijnist chi strukturna stijkist merezhi v cilomu abo centralnist okremih vuzliv Ce avtomatizuye pidhid vprovadzhenij kilkisnim opisovim analizom za dopomogoyu yakogo ob yekti diyeslovo ob yektni trijni identifikuyutsya z parami sub yektiv pov yazanih diyeyu abo parami utvorenimi sub yektom ob yektom Kontent analiz vzhe davno ye tradicijnoyu chastinoyu socialnih nauk ta media doslidzhen Avtomatizaciya kontent analizu dozvolila revolyuciyi velikih danih vidbutisya v cij galuzi z doslidzhennyami v socialnih media i zmist gazet yaki vklyuchayut miljoni novin Genderna uperedzhenist legkochitnist podibnist zmistu perevagi chitacha i navit nastrij buli proanalizovani na osnovi metodiv intelektualnogo analizu tekstu nad miljonami dokumentiv Analiz legkochitnosti gendernoyi uperedzhenosti ta zmishennya temi buv prodemonstrovanij u Flaounas et al v yakomu pokazuyut yak rizni temi mayut rizni genderni uperedzhennya ta rivni legkochitnosti Takozh bulo prodemonstrovano mozhlivist viyavlennya modelej nastroyu u velikij kilkosti naselennya shlyahom analizu vmistu Twitter Programne zabezpechennyaKomp yuterni programi dlya intelektualnogo analizu tekstu dostupni u bagatoh komercijnih ta vidkritih kompaniyah ta dzherelah Div en Zakon pro intelektualnu vlasnistSituaciya v Yevropi Cherez vidsutnist gnuchkosti v yevropejskomu zakonodavstvi pro avtorski prava i bazi danih intelektualnij analiz avtorskih robit dobuvannya danih bez dozvolu vlasnika avtorskih prav ye nezakonnim U Velikij Britaniyi u 2014 roci za rekomendaciyeyu uryad zminiv zakon pro avtorske pravo shob dozvoliti intelektualnij analiz tekstu yak en Ce bula lishe druga krayina u sviti pislya en yaka u 2009 roci zaprovadila intelektualnij analiz yak vinyatok Odnak cherez obmezhennya Direktivi pro avtorske pravo vinyatok Velikoyi Britaniyi dozvolyaye intelektualnij analiz kontentu lishe dlya nekomercijnih cilej Zakon Velikoyi Britaniyi pro avtorske pravo ne dozvolyaye perekriti ce polozhennya dogovirnimi umovami Yevropejska komisiya spriyala obgovorennyu zacikavlenih storin shodo intelektualnogo analizu tekstu ta danih u 2013 roci pid nazvoyu Licenziyi dlya Yevropi Toj fakt sho akcent na rozv yazanni cogo yuridichnogo pitannya polyagav u vidachi licenzij a ne na obmezhennyah ta vinyatkah iz zakonu pro avtorske pravo prizvelo do togo sho predstavniki universitetiv doslidnikiv bibliotek grup gromadyanskogo suspilstva ta vidavciv z vidkritim dostupom zalishili dialog iz zacikavlenimi storonami u travni 2013 roku Situaciya v SShA Na vidminu vid Yevropi cherez gnuchkist amerikanskogo zakonu pro avtorske pravo i zokrema sumlinnogo vikoristannya intelektualnij analiz tekstu v Americi yak i v inshih krayinah iz sumlinnim vikoristannyam takih yak Izrayil Tajvan i Pivdenna Koreya vvazhayetsya zakonnim Oskilki intelektualnij analiz tekstu ye peretvoryuvalnim ce oznachaye sho vin ne vitisnyaye originalnu robotu a vvazhayetsya zakonnim pri sumlinnomu vikoristanni Napriklad yak chastina en golovnij suddya u spravi postanoviv sho proekt ocifruvannya knig z avtorskimi pravami v Google buv zakonnim chastkovo cherez peretvorennya yake pokazuye proekt ocifruvannya odnim iz variantiv intelektualnogo analizu tekstu ta danih VplivDo nedavnogo chasu vebsajti najchastishe vikoristovuvali tekstovij poshuk yakij znahodit lishe dokumenti sho mistyat konkretni viznacheni koristuvachem slova abo frazi Teper zavdyaki vikoristannyu semantichnoyi pavutini intelektualnij analiz tekstu mozhe znajti vmist zasnovanij na sensi ta konteksti a ne prosto na konkretnomu slovi Krim togo programne zabezpechennya intelektualnogo analizu tekstu mozhna vikoristovuvati dlya stvorennya velikih dosye informaciyi pro konkretnih lyudej ta podiyi Napriklad veliki nabori danih na osnovi otrimanih danih zi zvitiv novin mozhut buti pobudovani dlya polegshennya analizu socialnih merezh abo kontrrozvidki Faktichno programne zabezpechennya intelektualnogo analizu tekstu mozhna vikoristovuvati v yakosti podibnoyi do analitichnoyi rozvidki abo doslidnickoyi biblioteki hocha i z bilsh obmezhenim analizom Intelektualnij analiz tekstu takozh vikoristovuyetsya v deyakih filtrah spamu dlya elektronnoyi poshti yak sposib viznachennya harakteristik povidomlen yaki jmovirno budut reklamoyu abo inshim nebazhanim materialom Intelektualnij analiz tekstu vidigraye vazhlivu rol u viznachenni en MajbutnyeZrostaye interes do bagatomovnogo intelektualnogo analizu danih zdatnist otrimuvati informaciyu mizh movami ta grupuvati podibni ob yekti z riznih movnih dzherel vidpovidno do yihnogo znachennya Protyagom desyatilit vidoma problema vikoristannya velikoyi chastini nestrukturovanoyi informaciyi yaka utvoryuyetsya na pidpriyemstvah Yiyi viznano she v samomu rannomu viznachenni biznes analitiki angl Business intelligence v zhovtni 1958 r v statti en Sistema biznes analitiki v zhurnali IBM yaka opisuye sistemu sho bude vikoristovuvati mashini dlya obrobki danih dlya avtomatichnogo abstraguvannya ta avtomatichnogo koduvannya dokumentiv i dlya stvorennya profiliv interesiv dlya kozhnoyi tochki diyi v organizaciyi I vhidni i vnutrishni dokumenti avtomatichno abstraguyutsya harakterizuyutsya slovom shablonom i vidpravlyayutsya avtomatichno do vidpovidnih tochok diyi Prote oskilki informacijni sistemi upravlinnya rozvivalisya z 1960 h rokiv i koli z yavilasya biznes analitika v 80 h i 90 h rokah yak kategoriya programnogo zabezpechennya ta sfera praktichnogo zastosuvannya akcent robivsya na chislovi dani sho zberigayutsya v relyacijnih bazah danih Ce ne divno tekst u nestrukturovanih dokumentah vazhko obroblyati Viniknennya tekstovoyi analitiki v yiyi ninishnij formi viplivaye z perefokusuvannya doslidzhen naprikinci 1990 h rokiv vid rozrobki algoritmiv do zastosuvannya yak opisav profesor Marti A Herst u statti Rozpiznavannya tekstovih danih Protyagom majzhe desyatilittya obchislyuvalne lingvistichne tovaristvo rozglyadalo veliki tekstovi kolekciyi yak resurs yakij neobhidno vikoristovuvati dlya stvorennya krashih algoritmiv analizu tekstu U cij roboti ya sprobuvav zaprovaditi novij nagolos vikoristannya velikih kolekcij onlajn tekstu dlya viyavlennya novih faktiv i tendencij shodo samogo svitu Ya vvazhayu sho dlya dosyagnennya progresu nam ne potribno povnistyu shtuchnij intelektualnij analiz tekstu skorishe poyednannya komp yuternogo i priznachenogo dlya koristuvacha analizu mozhe vidkriti dveri do novih cikavih rezultativ U zayavi Hersta 1999 roku govoritsya pro neobhidnist yakisnogo opisu stanu tehnologiyi ta praktiki analizu tekstiv PrimitkiFagan Stephen Gencay Ramazan 2010 An introduction to textual econometrics u Ullah Aman Giles David E A red Handbook of Empirical Economics and Finance CRC Press s 133 153 ISBN 9781420070361 P 139 For example in the Brown Corpus consisting of over one million words half of the word volume consists of repeated uses of only 135 words Berry 2003 1 29 listopada 2009 u Wayback Machine Cs cmu edu Arhiv originalu za 3 bereznya 2019 Procitovano 23 lyutogo 2015 2 3 bereznya 2012 u Wayback Machine Hobbs Jerry R Walker Donald E Amsler Robert A 1982 Natural language access to structured text Proceedings of the 9th conference on Computational linguistics T 1 s 127 32 doi 10 3115 991813 991833 Breakthrough Analysis August 2008 Arhiv originalu za 12 veresnya 2014 Procitovano 23 lyutogo 2015 Chang Wui Lee Tay Kai Meng Lim Chee Peng 6 lyutogo 2017 A New Evolving Tree Based Model with Local Re learning for Document Clustering and Visualization Neural Processing Letters angl 46 2 379 409 doi 10 1007 s11063 017 9597 3 ISSN 1370 4621 Breakthrough Analysis 14 chervnya 2010 Arhiv originalu za 20 lyutogo 2015 Procitovano 23 lyutogo 2015 Mehl Matthias R 2006 Quantitative Text Analysis Handbook of multimethod measurement in psychology s 141 doi 10 1037 11383 011 ISBN 978 1 59147 318 3 Pang Bo 2008 Opinion Mining and Sentiment Analysis Foundations and Trends in Information Retrieval 2 1 2 1 135 CiteSeerX 10 1 1 147 2755 doi 10 1561 1500000011 ISSN 1554 0669 Paltoglou Georgios Thelwall Mike 1 veresnya 2012 Twitter MySpace Digg Unsupervised Sentiment Analysis in Social Media ACM Transactions on Intelligent Systems and Technology TIST 3 4 66 doi 10 1145 2337542 2337551 ISSN 2157 6904 alt qcri org amer Arhiv originalu za 24 bereznya 2019 Procitovano 2 zhovtnya 2018 Zanasi Alessandro 2009 Virtual Weapons for Real Wars Text Mining for National Security Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS 08 Advances in Soft Computing T 53 s 53 doi 10 1007 978 3 540 88181 0 7 ISBN 978 3 540 88180 3 Cohen K Bretonnel Hunter Lawrence 2008 Getting Started in Text Mining PLoS Computational Biology 4 1 e20 doi 10 1371 journal pcbi 0040020 PMC 2217579 PMID 18225946 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Badal V D Kundrotas P J Vakser I A 2015 Text mining for protein docking PLoS Computational Biology 11 12 e1004630 doi 10 1371 journal pcbi 1004630 PMC 4674139 PMID 26650466 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite journal title Shablon Cite journal cite journal a Obslugovuvannya CS1 Storinki iz nepoznachenim DOI z bezkoshtovnim dostupom posilannya Papanikolaou Nikolas Pavlopoulos Georgios A Theodosiou Theodosios Iliopoulos Ioannis 2015 Protein protein interaction predictions using text mining methods Methods 74 47 53 doi 10 1016 j ymeth 2014 10 026 ISSN 1046 2023 PMID 25448298 Szklarczyk Damian Morris John H Cook Helen Kuhn Michael Wyder Stefan Simonovic Milan Santos Alberto Doncheva Nadezhda T Roth Alexander 18 zhovtnya 2016 The STRING database in 2017 quality controlled protein protein association networks made broadly accessible Nucleic Acids Research angl 45 D1 D362 D368 doi 10 1093 nar gkw937 ISSN 0305 1048 PMC 5210637 PMID 27924014 Liem David A Murali Sanjana Sigdel Dibakar Shi Yu Wang Xuan Shen Jiaming Choi Howard Caufield John H Wang Wei Ping Peipei Han Jiawei 1 zhovtnya 2018 Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease American Journal of Physiology Heart and Circulatory Physiology 315 4 H910 H924 doi 10 1152 ajpheart 00175 2018 ISSN 1522 1539 PMC 6230912 PMID 29775406 Van Le D Montgomery J Kirkby KC Scanlan J 10 serpnya 2018 Risk Prediction using Natural Language Processing of Electronic Mental Health Records in an Inpatient Forensic Psychiatry Setting Journal of Biomedical Informatics 86 49 58 doi 10 1016 j jbi 2018 08 007 PMID 30118855 Jenssen Tor Kristian Laegreid Astrid Komorowski Jan Hovig Eivind 2001 A literature network of human genes for high throughput analysis of gene expression Nature Genetics 28 1 21 8 doi 10 1038 ng0501 21 PMID 11326270 Masys Daniel R 2001 Linking microarray data to the literature Nature Genetics 28 1 9 10 doi 10 1038 ng0501 9 PMID 11326264 Renganathan Vinaitheerthan 2017 Text Mining in Biomedical Domain with Emphasis on Document Clustering Healthcare Informatics Research 23 3 141 146 doi 10 4258 hir 2017 23 3 141 ISSN 2093 3681 PMC 5572517 PMID 28875048 3 4 zhovtnya 2013 u Wayback Machine Medallia Arhiv originalu za 8 listopada 2017 Procitovano 23 lyutogo 2015 Coussement Kristof Van Den Poel Dirk 2008 Information amp Management 45 3 164 74 CiteSeerX 10 1 1 113 3238 doi 10 1016 j im 2008 01 005 Arhiv originalu za 15 grudnya 2019 Procitovano 19 travnya 2022 Coussement Kristof Van Den Poel Dirk 2008 Improving customer complaint management by automatic email classification using linguistic style features as predictors Decision Support Systems 44 4 870 82 doi 10 1016 j dss 2007 10 010 Ramiro H Galvez Agustin Gravano 2017 Assessing the usefulness of online message board mining in automatic stock prediction systems Journal of Computational Science 19 1877 7503 doi 10 1016 j jocs 2017 01 001 Pang Bo Lee Lillian Vaithyanathan Shivakumar 2002 Thumbs up Proceedings of the ACL 02 conference on Empirical methods in natural language processing T 10 s 79 86 doi 10 3115 1118693 1118704 Alessandro Valitutti Carlo Strapparava Oliviero Stock 2005 PDF PsychNology Journal 2 1 61 83 Arhiv originalu PDF za 20 veresnya 2018 Procitovano 29 bereznya 2019 Erik Cambria Robert Speer Catherine Havasi Amir Hussain 2010 PDF Proceedings of AAAI CSK s 14 18 Arhiv originalu PDF za 29 bereznya 2019 Procitovano 29 bereznya 2019 Calvo Rafael A d Mello Sidney 2010 Affect Detection An Interdisciplinary Review of Models Methods and Their Applications IEEE Transactions on Affective Computing 1 1 18 37 doi 10 1109 T AFFC 2010 1 Manchester ac uk Arhiv originalu za 27 sichnya 2013 Procitovano 23 lyutogo 2015 Tsujii is s u tokyo ac jp Arhiv originalu za 7 bereznya 2012 Procitovano 23 lyutogo 2015 UTokyo Arhiv originalu za 26 lipnya 2020 Procitovano 23 lyutogo 2015 Shen Jiaming Xiao Jinfeng He Xinwei Shang Jingbo Sinha Saurabh Han Jiawei 27 chervnya 2018 Entity Set Search of Scientific Literature An Unsupervised Ranking Approach ACM s 565 574 doi 10 1145 3209978 3210055 ISBN 9781450356572 Walter Lothar Radauer Alfred Moehrle Martin G 6 lyutogo 2017 The beauty of brimstone butterfly novelty of patents identified by near environment analysis based on text mining Scientometrics angl 111 1 103 115 doi 10 1007 s11192 017 2267 4 ISSN 0138 9130 Roll Uri Correia Ricardo A Berger Tal Oded 10 bereznya 2018 Using machine learning to disentangle homonyms in large text corpora Conservation Biology angl 32 3 716 724 doi 10 1111 cobi 13044 ISSN 0888 8892 PMID 29086438 Automated analysis of the US presidential elections using Big Data and network analysis S Sudhahar GA Veltri N Cristianini Big Data amp Society 2 1 1 28 2015 Network analysis of narrative content in large corpora S Sudhahar G De Fazio R Franzosi N Cristianini Natural Language Engineering 1 32 2013 Quantitative Narrative Analysis Roberto Franzosi Emory University c 2010 Lansdall Welfare Thomas Sudhahar Saatviga Thompson James Lewis Justin Team FindMyPast Newspaper Cristianini Nello 9 sichnya 2017 Proceedings of the National Academy of Sciences angl 114 4 E457 E465 doi 10 1073 pnas 1606380114 ISSN 0027 8424 PMC 5278459 PMID 28069962 Arhiv originalu za 15 listopada 2019 Procitovano 31 bereznya 2019 I Flaounas M Turchi O Ali N Fyson T De Bie N Mosdell J Lewis N Cristianini The Structure of EU Mediasphere PLoS ONE Vol 5 12 pp e14243 2010 Nowcasting Events from the Social Web with Statistical Learning V Lampos N Cristianini ACM Transactions on Intelligent Systems and Technology TIST 3 4 72 NOAM news outlets analysis and monitoring system I Flaounas O Ali M Turchi T Snowsill F Nicart T De Bie N Cristianini Proc of the 2011 ACM SIGMOD international conference on Management of data Automatic discovery of patterns in media content N Cristianini Combinatorial Pattern Matching 2 13 2011 I Flaounas O Ali T Lansdall Welfare T De Bie N Mosdell J Lewis N Cristianini RESEARCH METHODS IN THE AGE OF DIGITAL JOURNALISM Digital Journalism Routledge 2012 Circadian Mood Variations in Twitter Content Fabon Dzogang Stafford Lightman Nello Cristianini Brain and Neuroscience Advances 1 2398212817744501 Effects of the Recession on Public Mood in the UK T Lansdall Welfare V Lampos N Cristianini Mining Social Network Dynamics MSND session on Social Media Applications 4 9 chervnya 2014 u Wayback Machine European Commission Arhiv originalu za 23 bereznya 2013 Procitovano 14 listopada 2014 25 kvitnya 2013 Arhiv originalu za 29 listopada 2014 Procitovano 14 listopada 2014 Lexology com Antonelli Law Ltd Arhiv originalu za 29 listopada 2014 Procitovano 14 listopada 2014 Beyenetwork 30 zhovtnya 2007 Arhiv originalu za 8 grudnya 2017 Procitovano 23 lyutogo 2015 Hearst Marti A 1999 Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics s 3 10 doi 10 3115 1034678 1034679 ISBN 978 1 55860 609 8 Arhiv originalu za 22 kvitnya 2019 Procitovano 10 kvitnya 2019 DzherelaSurvey of Text Mining I Clustering Classification and Retrieval Ed by M W Berry 2004 Springer 2003 261 s ISBN 0387955631 Aggarwal C C Zhai C Mining Text Data Springer 2012 527 s ISBN 9781461432234 Do Prado H A Emerging Technologies of Text Mining Techniques and Applications Ed by H A Do Prado E Ferneda Idea Group Reference Springer 2007 358 s ISBN 1599043734 Cya stattya mistit pravopisni leksichni gramatichni stilistichni abo inshi movni pomilki yaki treba vipraviti Vi mozhete dopomogti vdoskonaliti cyu stattyu pogodivshi yiyi iz chinnimi movnimi standartami listopad 2019