Лате́нтно-семанти́чний ана́ліз (ЛСА) — метод обробки інформації природною мовою, зокрема, дистрибутивної семантики, що дозволяє аналізувати взаємозв'язок між набором документів і термінами, які в них зустрічаються, шляхом створення набору понять. ЛСА припускає, що слова, близькі за значенням, зустрічатимуться в подібних фрагментах тексту (дистрибутивна гіпотеза). З великої частини тексту створюється матриця, що вміщує кількість слів на параграф (рядки містять унікальні слова, а стовпці — текст кожного параграфа). При аналізі множини документів як вихідну інформацію ЛСА застосовує терм-документну матрицю, елементи якої свідчать про частоту використання кожного терміну в документах (TF-IDF).
За допомогою математичного методу, що називається сингулярним розкладом матриці, кількість рядків терм-документної матриці зменшують, зберігаючи при цьому структуру подібності у стовпцях. Потім слова порівнюють за допомогою обчислення косинуса кута між двома векторами (скалярний добуток векторів, поділений на добуток їх модулів), що утворено будь-якими двома рядками. Значення, близькі до 1, є дуже схожими словами, тоді як значення, близькі до 0, представляють дуже різнорідні слова.
ЛСА запатентували1988 року [en], [en], Джордж Фурнас, [en], [en], Karen Lochbaum і Lynn Streeter. В контексті застосування в інформаційному пошуку, його часом називають латентно-семантичним індексуванням (англ. Latent Semantic Indexing (LSI)).
Див. також
Примітки
- US Patent 4,839,853 [ 2 грудня 2017 у Wayback Machine.] (англ.), термін дії патенту сплив
- . Архів оригіналу за 9 березня 2021. Процитовано 13 грудня 2016. (англ.)
Джерела
- Latent Semantic Analysis [ 10 квітня 2010 у Wayback Machine.]
Це незавершена стаття зі штучного інтелекту. Ви можете проєкту, виправивши або дописавши її. |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Late ntno semanti chnij ana liz LSA metod obrobki informaciyi prirodnoyu movoyu zokrema distributivnoyi semantiki sho dozvolyaye analizuvati vzayemozv yazok mizh naborom dokumentiv i terminami yaki v nih zustrichayutsya shlyahom stvorennya naboru ponyat LSA pripuskaye sho slova blizki za znachennyam zustrichatimutsya v podibnih fragmentah tekstu distributivna gipoteza Z velikoyi chastini tekstu stvoryuyetsya matricya sho vmishuye kilkist sliv na paragraf ryadki mistyat unikalni slova a stovpci tekst kozhnogo paragrafa Pri analizi mnozhini dokumentiv yak vihidnu informaciyu LSA zastosovuye term dokumentnu matricyu elementi yakoyi svidchat pro chastotu vikoristannya kozhnogo terminu v dokumentah TF IDF Za dopomogoyu matematichnogo metodu sho nazivayetsya singulyarnim rozkladom matrici kilkist ryadkiv term dokumentnoyi matrici zmenshuyut zberigayuchi pri comu strukturu podibnosti u stovpcyah Potim slova porivnyuyut za dopomogoyu obchislennya kosinusa kuta mizh dvoma vektorami skalyarnij dobutok vektoriv podilenij na dobutok yih moduliv sho utvoreno bud yakimi dvoma ryadkami Znachennya blizki do 1 ye duzhe shozhimi slovami todi yak znachennya blizki do 0 predstavlyayut duzhe riznoridni slova LSA zapatentuvali1988 roku en en Dzhordzh Furnas en en Karen Lochbaum i Lynn Streeter V konteksti zastosuvannya v informacijnomu poshuku jogo chasom nazivayut latentno semantichnim indeksuvannyam angl Latent Semantic Indexing LSI Div takozhMetod golovnih komponent Poshukovij spam Vkladannya slivPrimitkiUS Patent 4 839 853 2 grudnya 2017 u Wayback Machine angl termin diyi patentu spliv Arhiv originalu za 9 bereznya 2021 Procitovano 13 grudnya 2016 angl DzherelaLatent Semantic Analysis 10 kvitnya 2010 u Wayback Machine Ce nezavershena stattya zi shtuchnogo intelektu Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi