Ана́ліз тона́льності те́ксту (сентимент-аналіз, англ. Sentiment analysis, англ. Opinion mining) — клас методів контент-аналізу в комп'ютерній лінгвістиці, призначений для автоматизованого виявлення в текстах емоційно забарвленої лексики і емоційної оцінки авторів (думок) щодо об'єктів, мова про які йде в тексті.
Тональність — емоційне ставлення автора висловлювання до деякого об'єкта (об'єкта реального світу, події, процесу або їх властивостям / атрибутам), виражене в тексті. Емоційна складова, виражена на рівні лексеми або комунікативного фрагмента, називається лексичною тональністю (або лексичним сентиментом). Тональність всього тексту в цілому можна визначити як функцію (в найпростішому випадку — суму) лексичних тональностей складових його одиниць (речень) і правил їхнього поєднання.
Приклади
Цілі та завдання аналізу тональності тексту можна показати на деяких простих прикладах.
Прості випадки
- Коронет має найкращі форми зі всіх круїзних суден.
- Бертрам має глибокий корпус V і легко проходить моря.
- У Флориді в 1980-х роках робили потворні круїзні кораблі пастельних кольорів.
- Я не люблю старі [en].
Складніші приклади
Ця стаття містить правописні, лексичні, граматичні, стилістичні або інші мовні помилки, які треба виправити. (листопад 2017) |
- Я не не люблю старі катери з каютами. (Уловлювання заперечення)
- Мені не подобається керування судном. (Заперечення, перевернутий порядок слів)
- Іноді я дійсно ненавиджу [en]. (Обставинна зміна ствердження)
- Я би дійсно дуже хотів би піти прогулятись у таку погоду! (Можливий сарказм)
- Кріс Крафт виглядає краще, ніж Лаймстоун (Дві торгові марки, що роблять визначення цілі дуже важким)
- Кріс Крафт виглядає краще, ніж Лаймстоун, але Лаймстоун розробляє мореплавність і надійність. (Дві торгові марки, дві позиції)
- Фільм здивував великою кількістю несподіваних сюжетних поворотів. (Негативний термін використовується в позитивному значенні в деяких областях)
- Ви повинні побачити своє декадентське десертне меню. (Позитивний термін нещодавно став протилежним в певних областях)
- Я люблю свій телефон, але не порекомендую його будь-кому з моїх колег. (Кваліфіковані позитивні настрої, важко класифікувати)
- Наступного тижня концерт буде під правами koide9! (Нові терміни можуть бути дуже позитивними, але є нестійкі протилежності, а часто і з відомих словників).
Види класифікації
В сучасних системах автоматичного визначення емоційної оцінки тексту найчастіше використовується одномірний емотивний простір: позитив чи негатив (добре або погано). Однак відомі успішні випадки використання і багатовимірних просторів.
Основним завданням в аналізі тональності є класифікація полярності документа, тобто визначення, чи є виражена думка в документі або реченні позитивною, негативною або нейтральною. Більш розгорнуто, «поза полярності» класифікація тональності виражається, наприклад, такими емоційними станами, як «злий», «сумний» і «щасливий».
Класифікація за бінарною шкалою
Полярність документа можна визначати за бінарною шкалою. У цьому випадку для визначення полярності документа використовується два класи оцінок: позитивна чи негативна. Одним із недоліків цього підходу є те, що емоційну складову документа не завжди можна однозначно визначити, тобто документ може містити як ознаки позитивної оцінки, так і негативної. Ранні роботи в цій сфері включають праці Терні та Панга, які застосовують різні методи розпізнавання полярності оглядів товару та відгуків про фільми відповідно. Це приклад роботи на рівні документа.
Класифікація за багатосмуговою шкалою
Можна класифікувати полярність документа за багатосмуговою шкалою, що було зроблено Пангом і Снайдером (серед інших). Ними було розширене основне завдання класифікації кіновідгуків від оцінки «позитивний або негативний» в бік прогнозування рейтингу за 3-х або 4-бальною шкалою. Водночас Снайдер провів поглиблений аналіз оглядів ресторанів, пророкуючи рейтинги різних властивостей, таких як їжа та атмосфера (за 5-бальною шкалою).
Системи шкалювання
Іншим методом визначення тональності є використання систем шкалювання, за допомогою чого словами, зазвичай пов'язаними з негативними, нейтральними або позитивними тональностями, ставляться відповідно числа за шкалою від -10 до 10 (від негативного до самого позитивного). Спочатку фрагмент неструктурованого тексту досліджується з допомогою інструментів та алгоритмів обробки природної мови, а потім виділені з цього тексту об'єкти та терміни аналізуються з метою розуміння значення цих слів.
Суб'єктивність/об'єктивність
Інший дослідницький напрямок — це ідентифікація суб'єктивності/об'єктивності. Це завдання зазвичай визначається як віднесення тексту в один із двох класів — суб'єктивний або об'єктивний. Ця проблема іноді може бути складнішою, ніж класифікація полярності: суб'єктивність слів і фраз може залежати від контексту, а об'єктивний документ може містити суб'єктивні речення (наприклад, стаття-новина цитує думки людей). Як згадував Су, результати більшою мірою залежать від визначення суб'єктивності, вживаної в рамках анотації текстів. Як би не було, Панг показав, що видалення об'єктивних речень із документа перед класифікацією полярності допомогло підвищити точність результатів.
Модель більш докладного аналізу називається аналізом на основі функції/аспекту. Ця модель посилається на ухвалу думок або настроїв, виражених різними функціями або аспектами сутностей, наприклад, у стільникового телефона, цифрової камери або банку. Властивість/аспект — це атрибут або компонент сутності, досліджуваної на тональність, наприклад, екран мобільного телефона або ж якість зйомки камери. Ця проблема вимагає вирішення ряду завдань, наприклад, ідентифікація актуальних сутностей, витяг їхніх функцій, аспектів і визначення, є думка, що висловлена по кожній функції/аспекту, позитивною, негативною або нейтральною. Більш докладні дискусії з приводу цього можуть бути знайдені в довіднику з NLP, у главі «Аналіз тональності та суб'єктивності».
Підходи до класифікації тональності
Комп'ютери можуть виконувати автоматичний аналіз цифрових текстів, використовуючи елементи машинного навчання, такі як прихований семантичний аналіз, метод опорних векторів, «мішок слів». Більш складні методи намагаються визначити володаря настроїв (тобто людини) і мету (тобто сутність, щодо якої виражаються почуття). Щоб визначити думку з урахуванням контексту, використовують граматичні відносини між словами.
Відносини граматичної пов'язаності отримують на основі глибокого структурного розбору тексту. Аналіз тональності може бути розділений на дві окремі категорії:
- ручний (або аналіз тональності експертами);
- автоматизований.
Найбільш помітні відмінності між ними лежать в ефективності системи і точності аналізу. У комп'ютерних програмах автоматизованого аналізу тональності застосовують алгоритми машинного навчання, інструменти статистики та обробки природної мови, що дозволяє обробляти великі масиви тексту, включно з вебсторінками, онлайн-новинами, текстами дискусійних груп в інтернеті, онлайн-оглядами, вебблогами та соціальними медіа.
Методи класифікації тональності
Методи, засновані на правилах і словниках
Цей метод заснований на пошуку емотивної лексики (лексичної тональності) в тексті по заздалегідь складених тональних словниках і правилах із застосуванням лінгвістичного аналізу. За сукупністю знайденої емотивної лексики текст може бути оцінений за шкалою, що містить кількість негативної та позитивної лексики. Цей метод може використовувати як списки правил, що підставляються в регулярні вирази, так і спеціальні правила з'єднання тональної лексики всередині речення. Щоб проаналізувати текст, можна скористатися наступним алгоритмом: спочатку кожному слову в тексті привласнити його значення тональності зі словника (якщо воно присутнє в словнику), а потім обчислити загальну тональність всього тексту шляхом підсумовування значення тональностей кожного окремого речення.
Основною проблемою методів, заснованих на словниках і правилах, вважається трудомісткість процесу складання словника. Щоб отримати метод, що класифікує документ із високою точністю, терміни словника повинні мати вагу, адекватний предметної області документа. Наприклад, слово «величезний» щодо обсягу пам'яті жорсткого диска є позитивною характеристикою, але негативною щодо розміру мобільного телефона. Тому цей метод вимагає значних трудовитрат, оскільки для хорошої роботи системи необхідно скласти велику кількість правил. Існує ряд підходів, що дозволяють автоматизувати складання словників для конкретної предметної області (наприклад, тематика ресторанів або мобільних телефонів).
Кероване машинне навчання
У наш час найчастіше вживаними в дослідженнях методами є методи на основі керованого машинного навчання. Їхня суть полягає в тому, що на першому етапі навчається машинний класифікатор (наприклад, Баєсів) на заздалегідь розмічених текстах, а потім використовують отриману модель при аналізі нових документів. Наведемо короткий алгоритм:
- Спочатку збирається колекція документів, на основі якої навчається машинний класифікатор.
- Кожен документ розкладається у вигляді вектора ознак (аспектів), за якими він буде досліджуватися.
- Вказується правильний тип тональності для кожного документа.
- Проводиться вибір алгоритму класифікації та методу для навчання класифікатора.
- Отриману модель використовують для визначення тональності документів нової колекції.
Некероване машинне навчання
В основі цього підходу лежить ідея, що терміни, які найчастіше зустрічаються в тексті і водночас присутні в невеликій кількості текстів у всій колекції мають найбільшу вагу в тексті. Виділивши ці терміни, а потім визначивши їхню тональність, можна зробити висновок про тональність всього тексту.
Метод, заснований на теоретико-графових моделях
В основі цього методу використовується припущення про те, що не всі слова в текстовому корпусі документа рівнозначні. Якісь слова мають більшу вагу та сильніше впливають на тональність тексту. При використанні цього методу аналіз тональності розбивається на кілька етапів:
- Побудова графа на основі досліджуваного тексту.
- Ранжування його вершин.
- Класифікація знайдених слів.
- Обчислення результату.
Для класифікації слів використовується тональний словник, в якому кожному слову надається оцінка, наприклад «позитивна», «негативна» або «нейтральна». Для отримання кінцевого результату потрібно обчислити значення двох оцінок: позитивної та негативної складових тексту. Щоб знайти позитивну складову, необхідно знайти суму тональностей всіх позитивних термінів тексту з урахуванням їхньої ваги. Значення негативної складової тексту знаходиться аналогічним чином. Для підсумкової оцінки тональності всього тексту потрібно обчислити відношення цих складових за формулою: , де T — підсумкова оцінка тональності, P — оцінка позитивної складової тексту і N — негативна складова тексту. Відповідно до статті Меншикова, текст, в якому значення T близьке до одиниці, буде вважатися нейтральним, якщо трохи перевищує 1 — позитивним. Якщо сильно перевершує 1, то сильно позитивним. Зворотне вірно і для текстів негативної тональності. Більш детально цей метод розглянуто в роботах Голдберга та Пономарьової.
Оцінка якості аналізу тональності
Точність і якість системи аналізу тональності тексту оцінюється тим, наскільки добре вона узгоджується з думкою людини щодо емоційної оцінки досліджуваного тексту. Для цього можуть використовуватися такі показники як точність і повнота. Формула для знаходження повноти:
де correctly extracted opinions — правильно розпізнані думки, total number of opinions — загальна кількість думок (як знайдених системою, так і не знайдених).
Точність обчислюється за формулою:
де correctly extracted opinions — правильно розпізнані думки, total number of opinions found by system — загальна кількість думок, знайдених системою. Таким чином, точність виражає кількість досліджуваних текстів, речень або документів, в оцінці яких думка системи аналізу тональності збіглась із думкою експерта. При цьому, згідно з дослідженням, експерти зазвичай погоджуються в оцінках тональності конкретного тексту в 79 % випадків. Тобто, програма, яка визначає тональність тексту з точністю 70 % робить це майже так само добре, як і людина.
Посилання
- Washington, Erin (14-11-2013). . Growing Social Media (англ.). Архів оригіналу за 1 грудня 2017. Процитовано 11 грудня 2013.
- Ogneva, M (13-12-2012). . Mashable (англ.). Архів оригіналу за 20 листопада 2017. Процитовано 11 грудня 2013.
- (англ.). Архів оригіналу за 26 листопада 2017. Процитовано 23 листопада 2017.
- (англ.). Архів оригіналу за 21 листопада 2017. Процитовано 23 листопада 2017.
- (англ.). Архів оригіналу за 1 грудня 2017. Процитовано 23 листопада 2017.
- (англ.). Архів оригіналу за 5 вересня 2017. Процитовано 23 листопада 2017.
- (англ.). Архів оригіналу за 23 листопада 2017. Процитовано 23 листопада 2017.
- (англ.). Архів оригіналу за 30 листопада 2017. Процитовано 23 листопада 2017.
Примітки
- Pang, Lee, 2008, с. 6.
- Bing Liu, 2010, с. 5.
- Bollen,Mao,J.Zeng, 2010.
- Pang, Lee, 2008.
Література
- Stefano Baccianella. Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining // Proceedings of LREC : конференція. — 2010. — P. 2200–2204.
- Victoria Bobicev, Victoria Maxim, Tatiana Prodan, Natalia Burciu, Victoria Angheluş. Emotions in words: developing a multilingual WordNet-Affect. — 2010. — P. 1-10.
- J.Bollen, H.Mao, X.-J.Zeng. Twitter mood predicts the stock market // JTechnical Report arXiv:1010.3003, CoRR : журнал. — 2010.
- Erik Cambria. SenticNet 2: A semantic and affective resource for opinion mining and sentiment analysis // Proceedings of AAAI FLAIRS : конференція. — 2012. — P. 202–207.
- Erik Cambria, Amir Hussain, Catherine Havasi, and Chris Eckl. Common Sense Computing: from the Society of Mind to Digital Intuition and Beyond // Biometric ID Management and Multimodal Communication Lecture Notes in Computer Science : журнал. — 2009. — P. 252-259.
- Andrew Goldberg, Xiaojin Zhu. Seeing stars when there aren’t many stars:Graph-based semi-supervised learning for sentiment categorization // Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing,Computer Sciences Department University of Wisconsin-Madison : конференція. — 2006. — P. 45-52.
- Minqing Hu, Bing Liu. Mining and Summarizing Customer Reviews // Proceedings of KDD : конференція. — 2004.
- Nozomi Kobayashi, Ryu Iida, Kentaro Inui, Yuji Matsumoto. Opinion Mining on the Web by Extracting Subject-Aspect-Evaluation Relations // Nara Institute of Science and Technology, Takayama, Ikoma, Nara 630-0192, Japan : конференція. — 2006. — P. 1-6.
- Bernardo Magnini, Gabriela Cavaglia. Integrating subject field codes into WordNet. — 2000.
- Bo Pang, Lillian Lee, Shivakumar Vaithyanathan. Thumbs up? Sentiment Classification using Machine Learning Techniques // EMNLP. — 2002. — P. 79–86.
- Bo Pang, Lillian Lee. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts // Proceedings of the Association for Computational Linguistics (ACL) : журнал. — 2004. — P. 271–278.
- Bo Pang, Lillian Lee. Seeing stars: exploiting class relationships for sentiment categorization with respect to rating scales // In Proceedings of the 43rd annual meeting of the Association for Computational Linguistics (ACL) : журнал. — 2005. — No. June 25–30. — P. 115–124.
- Bo Pang, Lillian Lee. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval : журнал. — 2008. — No. 2. — P. 1-135.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Ana liz tona lnosti te kstu sentiment analiz angl Sentiment analysis angl Opinion mining klas metodiv kontent analizu v komp yuternij lingvistici priznachenij dlya avtomatizovanogo viyavlennya v tekstah emocijno zabarvlenoyi leksiki i emocijnoyi ocinki avtoriv dumok shodo ob yektiv mova pro yaki jde v teksti Tonalnist emocijne stavlennya avtora vislovlyuvannya do deyakogo ob yekta ob yekta realnogo svitu podiyi procesu abo yih vlastivostyam atributam virazhene v teksti Emocijna skladova virazhena na rivni leksemi abo komunikativnogo fragmenta nazivayetsya leksichnoyu tonalnistyu abo leksichnim sentimentom Tonalnist vsogo tekstu v cilomu mozhna viznachiti yak funkciyu v najprostishomu vipadku sumu leksichnih tonalnostej skladovih jogo odinic rechen i pravil yihnogo poyednannya PrikladiCili ta zavdannya analizu tonalnosti tekstu mozhna pokazati na deyakih prostih prikladah Prosti vipadki Koronet maye najkrashi formi zi vsih kruyiznih suden Bertram maye glibokij korpus V i legko prohodit morya U Floridi v 1980 h rokah robili potvorni kruyizni korabli pastelnih koloriv Ya ne lyublyu stari en Skladnishi prikladi Cya stattya mistit pravopisni leksichni gramatichni stilistichni abo inshi movni pomilki yaki treba vipraviti Vi mozhete dopomogti vdoskonaliti cyu stattyu pogodivshi yiyi iz chinnimi movnimi standartami listopad 2017 Ya ne ne lyublyu stari kateri z kayutami Ulovlyuvannya zaperechennya Meni ne podobayetsya keruvannya sudnom Zaperechennya perevernutij poryadok sliv Inodi ya dijsno nenavidzhu en Obstavinna zmina stverdzhennya Ya bi dijsno duzhe hotiv bi piti progulyatis u taku pogodu Mozhlivij sarkazm Kris Kraft viglyadaye krashe nizh Lajmstoun Dvi torgovi marki sho roblyat viznachennya cili duzhe vazhkim Kris Kraft viglyadaye krashe nizh Lajmstoun ale Lajmstoun rozroblyaye moreplavnist i nadijnist Dvi torgovi marki dvi poziciyi Film zdivuvav velikoyu kilkistyu nespodivanih syuzhetnih povorotiv Negativnij termin vikoristovuyetsya v pozitivnomu znachenni v deyakih oblastyah Vi povinni pobachiti svoye dekadentske desertne menyu Pozitivnij termin neshodavno stav protilezhnim v pevnih oblastyah Ya lyublyu svij telefon ale ne porekomenduyu jogo bud komu z moyih koleg Kvalifikovani pozitivni nastroyi vazhko klasifikuvati Nastupnogo tizhnya koncert bude pid pravami koide9 Novi termini mozhut buti duzhe pozitivnimi ale ye nestijki protilezhnosti a chasto i z vidomih slovnikiv Vidi klasifikaciyiV suchasnih sistemah avtomatichnogo viznachennya emocijnoyi ocinki tekstu najchastishe vikoristovuyetsya odnomirnij emotivnij prostir pozitiv chi negativ dobre abo pogano Odnak vidomi uspishni vipadki vikoristannya i bagatovimirnih prostoriv Osnovnim zavdannyam v analizi tonalnosti ye klasifikaciya polyarnosti dokumenta tobto viznachennya chi ye virazhena dumka v dokumenti abo rechenni pozitivnoyu negativnoyu abo nejtralnoyu Bilsh rozgornuto poza polyarnosti klasifikaciya tonalnosti virazhayetsya napriklad takimi emocijnimi stanami yak zlij sumnij i shaslivij Klasifikaciya za binarnoyu shkaloyu Polyarnist dokumenta mozhna viznachati za binarnoyu shkaloyu U comu vipadku dlya viznachennya polyarnosti dokumenta vikoristovuyetsya dva klasi ocinok pozitivna chi negativna Odnim iz nedolikiv cogo pidhodu ye te sho emocijnu skladovu dokumenta ne zavzhdi mozhna odnoznachno viznachiti tobto dokument mozhe mistiti yak oznaki pozitivnoyi ocinki tak i negativnoyi Ranni roboti v cij sferi vklyuchayut praci Terni ta Panga yaki zastosovuyut rizni metodi rozpiznavannya polyarnosti oglyadiv tovaru ta vidgukiv pro filmi vidpovidno Ce priklad roboti na rivni dokumenta Klasifikaciya za bagatosmugovoyu shkaloyu Mozhna klasifikuvati polyarnist dokumenta za bagatosmugovoyu shkaloyu sho bulo zrobleno Pangom i Snajderom sered inshih Nimi bulo rozshirene osnovne zavdannya klasifikaciyi kinovidgukiv vid ocinki pozitivnij abo negativnij v bik prognozuvannya rejtingu za 3 h abo 4 balnoyu shkaloyu Vodnochas Snajder proviv pogliblenij analiz oglyadiv restoraniv prorokuyuchi rejtingi riznih vlastivostej takih yak yizha ta atmosfera za 5 balnoyu shkaloyu Sistemi shkalyuvannya Inshim metodom viznachennya tonalnosti ye vikoristannya sistem shkalyuvannya za dopomogoyu chogo slovami zazvichaj pov yazanimi z negativnimi nejtralnimi abo pozitivnimi tonalnostyami stavlyatsya vidpovidno chisla za shkaloyu vid 10 do 10 vid negativnogo do samogo pozitivnogo Spochatku fragment nestrukturovanogo tekstu doslidzhuyetsya z dopomogoyu instrumentiv ta algoritmiv obrobki prirodnoyi movi a potim vidileni z cogo tekstu ob yekti ta termini analizuyutsya z metoyu rozuminnya znachennya cih sliv Sub yektivnist ob yektivnist Inshij doslidnickij napryamok ce identifikaciya sub yektivnosti ob yektivnosti Ce zavdannya zazvichaj viznachayetsya yak vidnesennya tekstu v odin iz dvoh klasiv sub yektivnij abo ob yektivnij Cya problema inodi mozhe buti skladnishoyu nizh klasifikaciya polyarnosti sub yektivnist sliv i fraz mozhe zalezhati vid kontekstu a ob yektivnij dokument mozhe mistiti sub yektivni rechennya napriklad stattya novina cituye dumki lyudej Yak zgaduvav Su rezultati bilshoyu miroyu zalezhat vid viznachennya sub yektivnosti vzhivanoyi v ramkah anotaciyi tekstiv Yak bi ne bulo Pang pokazav sho vidalennya ob yektivnih rechen iz dokumenta pered klasifikaciyeyu polyarnosti dopomoglo pidvishiti tochnist rezultativ Model bilsh dokladnogo analizu nazivayetsya analizom na osnovi funkciyi aspektu Cya model posilayetsya na uhvalu dumok abo nastroyiv virazhenih riznimi funkciyami abo aspektami sutnostej napriklad u stilnikovogo telefona cifrovoyi kameri abo banku Vlastivist aspekt ce atribut abo komponent sutnosti doslidzhuvanoyi na tonalnist napriklad ekran mobilnogo telefona abo zh yakist zjomki kameri Cya problema vimagaye virishennya ryadu zavdan napriklad identifikaciya aktualnih sutnostej vityag yihnih funkcij aspektiv i viznachennya ye dumka sho vislovlena po kozhnij funkciyi aspektu pozitivnoyu negativnoyu abo nejtralnoyu Bilsh dokladni diskusiyi z privodu cogo mozhut buti znajdeni v dovidniku z NLP u glavi Analiz tonalnosti ta sub yektivnosti Pidhodi do klasifikaciyi tonalnostiKomp yuteri mozhut vikonuvati avtomatichnij analiz cifrovih tekstiv vikoristovuyuchi elementi mashinnogo navchannya taki yak prihovanij semantichnij analiz metod opornih vektoriv mishok sliv Bilsh skladni metodi namagayutsya viznachiti volodarya nastroyiv tobto lyudini i metu tobto sutnist shodo yakoyi virazhayutsya pochuttya Shob viznachiti dumku z urahuvannyam kontekstu vikoristovuyut gramatichni vidnosini mizh slovami Vidnosini gramatichnoyi pov yazanosti otrimuyut na osnovi glibokogo strukturnogo rozboru tekstu Analiz tonalnosti mozhe buti rozdilenij na dvi okremi kategoriyi ruchnij abo analiz tonalnosti ekspertami avtomatizovanij Najbilsh pomitni vidminnosti mizh nimi lezhat v efektivnosti sistemi i tochnosti analizu U komp yuternih programah avtomatizovanogo analizu tonalnosti zastosovuyut algoritmi mashinnogo navchannya instrumenti statistiki ta obrobki prirodnoyi movi sho dozvolyaye obroblyati veliki masivi tekstu vklyuchno z vebstorinkami onlajn novinami tekstami diskusijnih grup v interneti onlajn oglyadami vebblogami ta socialnimi media Metodi klasifikaciyi tonalnostiMetodi zasnovani na pravilah i slovnikah Cej metod zasnovanij na poshuku emotivnoyi leksiki leksichnoyi tonalnosti v teksti po zazdalegid skladenih tonalnih slovnikah i pravilah iz zastosuvannyam lingvistichnogo analizu Za sukupnistyu znajdenoyi emotivnoyi leksiki tekst mozhe buti ocinenij za shkaloyu sho mistit kilkist negativnoyi ta pozitivnoyi leksiki Cej metod mozhe vikoristovuvati yak spiski pravil sho pidstavlyayutsya v regulyarni virazi tak i specialni pravila z yednannya tonalnoyi leksiki vseredini rechennya Shob proanalizuvati tekst mozhna skoristatisya nastupnim algoritmom spochatku kozhnomu slovu v teksti privlasniti jogo znachennya tonalnosti zi slovnika yaksho vono prisutnye v slovniku a potim obchisliti zagalnu tonalnist vsogo tekstu shlyahom pidsumovuvannya znachennya tonalnostej kozhnogo okremogo rechennya Osnovnoyu problemoyu metodiv zasnovanih na slovnikah i pravilah vvazhayetsya trudomistkist procesu skladannya slovnika Shob otrimati metod sho klasifikuye dokument iz visokoyu tochnistyu termini slovnika povinni mati vagu adekvatnij predmetnoyi oblasti dokumenta Napriklad slovo velicheznij shodo obsyagu pam yati zhorstkogo diska ye pozitivnoyu harakteristikoyu ale negativnoyu shodo rozmiru mobilnogo telefona Tomu cej metod vimagaye znachnih trudovitrat oskilki dlya horoshoyi roboti sistemi neobhidno sklasti veliku kilkist pravil Isnuye ryad pidhodiv sho dozvolyayut avtomatizuvati skladannya slovnikiv dlya konkretnoyi predmetnoyi oblasti napriklad tematika restoraniv abo mobilnih telefoniv Kerovane mashinne navchannya U nash chas najchastishe vzhivanimi v doslidzhennyah metodami ye metodi na osnovi kerovanogo mashinnogo navchannya Yihnya sut polyagaye v tomu sho na pershomu etapi navchayetsya mashinnij klasifikator napriklad Bayesiv na zazdalegid rozmichenih tekstah a potim vikoristovuyut otrimanu model pri analizi novih dokumentiv Navedemo korotkij algoritm Spochatku zbirayetsya kolekciya dokumentiv na osnovi yakoyi navchayetsya mashinnij klasifikator Kozhen dokument rozkladayetsya u viglyadi vektora oznak aspektiv za yakimi vin bude doslidzhuvatisya Vkazuyetsya pravilnij tip tonalnosti dlya kozhnogo dokumenta Provoditsya vibir algoritmu klasifikaciyi ta metodu dlya navchannya klasifikatora Otrimanu model vikoristovuyut dlya viznachennya tonalnosti dokumentiv novoyi kolekciyi Nekerovane mashinne navchannya V osnovi cogo pidhodu lezhit ideya sho termini yaki najchastishe zustrichayutsya v teksti i vodnochas prisutni v nevelikij kilkosti tekstiv u vsij kolekciyi mayut najbilshu vagu v teksti Vidilivshi ci termini a potim viznachivshi yihnyu tonalnist mozhna zrobiti visnovok pro tonalnist vsogo tekstu Metod zasnovanij na teoretiko grafovih modelyah V osnovi cogo metodu vikoristovuyetsya pripushennya pro te sho ne vsi slova v tekstovomu korpusi dokumenta rivnoznachni Yakis slova mayut bilshu vagu ta silnishe vplivayut na tonalnist tekstu Pri vikoristanni cogo metodu analiz tonalnosti rozbivayetsya na kilka etapiv Pobudova grafa na osnovi doslidzhuvanogo tekstu Ranzhuvannya jogo vershin Klasifikaciya znajdenih sliv Obchislennya rezultatu Dlya klasifikaciyi sliv vikoristovuyetsya tonalnij slovnik v yakomu kozhnomu slovu nadayetsya ocinka napriklad pozitivna negativna abo nejtralna Dlya otrimannya kincevogo rezultatu potribno obchisliti znachennya dvoh ocinok pozitivnoyi ta negativnoyi skladovih tekstu Shob znajti pozitivnu skladovu neobhidno znajti sumu tonalnostej vsih pozitivnih terminiv tekstu z urahuvannyam yihnoyi vagi Znachennya negativnoyi skladovoyi tekstu znahoditsya analogichnim chinom Dlya pidsumkovoyi ocinki tonalnosti vsogo tekstu potribno obchisliti vidnoshennya cih skladovih za formuloyu T P N displaystyle T P N de T pidsumkova ocinka tonalnosti P ocinka pozitivnoyi skladovoyi tekstu i N negativna skladova tekstu Vidpovidno do statti Menshikova tekst v yakomu znachennya T blizke do odinici bude vvazhatisya nejtralnim yaksho trohi perevishuye 1 pozitivnim Yaksho silno perevershuye 1 to silno pozitivnim Zvorotne virno i dlya tekstiv negativnoyi tonalnosti Bilsh detalno cej metod rozglyanuto v robotah Goldberga ta Ponomarovoyi Ocinka yakosti analizu tonalnostiTochnist i yakist sistemi analizu tonalnosti tekstu ocinyuyetsya tim naskilki dobre vona uzgodzhuyetsya z dumkoyu lyudini shodo emocijnoyi ocinki doslidzhuvanogo tekstu Dlya cogo mozhut vikoristovuvatisya taki pokazniki yak tochnist i povnota Formula dlya znahodzhennya povnoti R correctly extracted opinions total number of opinions displaystyle R frac text correctly extracted opinions text total number of opinions de correctly extracted opinions pravilno rozpiznani dumki total number of opinions zagalna kilkist dumok yak znajdenih sistemoyu tak i ne znajdenih Tochnist obchislyuyetsya za formuloyu P correctly extracted opinions total number of opinions found by system displaystyle P frac text correctly extracted opinions text total number of opinions found by system de correctly extracted opinions pravilno rozpiznani dumki total number of opinions found by system zagalna kilkist dumok znajdenih sistemoyu Takim chinom tochnist virazhaye kilkist doslidzhuvanih tekstiv rechen abo dokumentiv v ocinci yakih dumka sistemi analizu tonalnosti zbiglas iz dumkoyu eksperta Pri comu zgidno z doslidzhennyam eksperti zazvichaj pogodzhuyutsya v ocinkah tonalnosti konkretnogo tekstu v 79 vipadkiv Tobto programa yaka viznachaye tonalnist tekstu z tochnistyu 70 robit ce majzhe tak samo dobre yak i lyudina PosilannyaWashington Erin 14 11 2013 Growing Social Media angl Arhiv originalu za 1 grudnya 2017 Procitovano 11 grudnya 2013 Ogneva M 13 12 2012 Mashable angl Arhiv originalu za 20 listopada 2017 Procitovano 11 grudnya 2013 angl Arhiv originalu za 26 listopada 2017 Procitovano 23 listopada 2017 angl Arhiv originalu za 21 listopada 2017 Procitovano 23 listopada 2017 angl Arhiv originalu za 1 grudnya 2017 Procitovano 23 listopada 2017 angl Arhiv originalu za 5 veresnya 2017 Procitovano 23 listopada 2017 angl Arhiv originalu za 23 listopada 2017 Procitovano 23 listopada 2017 angl Arhiv originalu za 30 listopada 2017 Procitovano 23 listopada 2017 PrimitkiPang Lee 2008 s 6 Bing Liu 2010 s 5 Bollen Mao J Zeng 2010 Pang Lee 2008 LiteraturaStefano Baccianella Sentiwordnet 3 0 An enhanced lexical resource for sentiment analysis and opinion mining Proceedings of LREC konferenciya 2010 P 2200 2204 Victoria Bobicev Victoria Maxim Tatiana Prodan Natalia Burciu Victoria Anghelus Emotions in words developing a multilingual WordNet Affect 2010 P 1 10 J Bollen H Mao X J Zeng Twitter mood predicts the stock market JTechnical Report arXiv 1010 3003 CoRR zhurnal 2010 Erik Cambria SenticNet 2 A semantic and affective resource for opinion mining and sentiment analysis Proceedings of AAAI FLAIRS konferenciya 2012 P 202 207 Erik Cambria Amir Hussain Catherine Havasi and Chris Eckl Common Sense Computing from the Society of Mind to Digital Intuition and Beyond Biometric ID Management and Multimodal Communication Lecture Notes in Computer Science zhurnal 2009 P 252 259 Andrew Goldberg Xiaojin Zhu Seeing stars when there aren t many stars Graph based semi supervised learning for sentiment categorization Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing Computer Sciences Department University of Wisconsin Madison konferenciya 2006 P 45 52 Minqing Hu Bing Liu Mining and Summarizing Customer Reviews Proceedings of KDD konferenciya 2004 Nozomi Kobayashi Ryu Iida Kentaro Inui Yuji Matsumoto Opinion Mining on the Web by Extracting Subject Aspect Evaluation Relations Nara Institute of Science and Technology Takayama Ikoma Nara 630 0192 Japan konferenciya 2006 P 1 6 Bernardo Magnini Gabriela Cavaglia Integrating subject field codes into WordNet 2000 Bo Pang Lillian Lee Shivakumar Vaithyanathan Thumbs up Sentiment Classification using Machine Learning Techniques EMNLP 2002 P 79 86 Bo Pang Lillian Lee A Sentimental Education Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts Proceedings of the Association for Computational Linguistics ACL zhurnal 2004 P 271 278 Bo Pang Lillian Lee Seeing stars exploiting class relationships for sentiment categorization with respect to rating scales In Proceedings of the 43rd annual meeting of the Association for Computational Linguistics ACL zhurnal 2005 No June 25 30 P 115 124 Bo Pang Lillian Lee Opinion Mining and Sentiment Analysis Foundations and Trends in Information Retrieval zhurnal 2008 No 2 P 1 135