Тематичне моделювання — спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен з документів.
Тематична модель (англ. topic model) колекції текстових документів визначає, до яких тем належить кожен документ, і які слова (терміни) утворюють кожну тему.
Перехід з простору термінів в простір знайдених тематик допомагає вирішувати синонімію і полісемію термінів, а також ефективніше вирішувати такі завдання як тематичний пошук, класифікація, сумаризація і анотація колекцій документів і новинних потоків.
Тематичне моделювання як вид статистичних моделей для знаходження прихованих тем, що зустрічаються в колекції документів, знайшло своє застосування в таких областях як машинне навчання і обробка природної мови. Дослідники використовують різні тематичні моделі для аналізу текстів, текстових архівів документів, для аналізу зміни тем у наборах документів[⇨]. Інтуїтивно розуміючи, що документ відноситься до певної теми, в документах, присвячених одній темі, можна зустріти деякі слова частіше за інші. Наприклад, слова «собака» і «кістка» зустрічаються частіше в документах про собак; «кішки» і «молоко» будуть зустрічатися в документах про кошенят, прийменники «в» та «на» будуть зустрічатися в обох тематиках. Зазвичай документ стосується кількох тем в різних пропорціях. Таким чином, для документу, в якому 10 % теми складають кішки, а 90 % теми — собаки, можна припустити, що слів про собак в 9 разів більше. Тематичне моделювання відображає цю інтуїцію в математичній структурі, яка дозволяє на підставі вивчення колекції документів і дослідження частотних характеристик слів в кожному документі зробити висновок, що кожен документ — це деякий баланс тем.
Найбільше застосування в сучасних додатках знаходять підходи, що ґрунтуються на Баєсових мережах — імовірнісних моделях на орієнтованих графах. Імовірнісні тематичні моделі — це відносно молода область досліджень в теорії некерованого навчання. Одним з перших був запропонований імовірнісний латентно-семантичний аналіз (PLSA)[⇨], заснований на принципі максимуму правдоподібності, як альтернатива класичним методам кластеризації, заснованим на обчисленні функцій відстані. Слідом за PLSA був запропонований метод [en] і його численні узагальнення[⇨].
Імовірнісні тематичні моделі здійснюють «м'яку» кластеризацію, дозволяючи документу або терміну відноситися відразу до декількох тем з різними ймовірностями. Імовірнісні тематичні моделі описують кожну тему (дискретним розподілом) на множині термінів, кожен документ — дискретним розподілом на множині тем. Передбачається, що колекція документів — це послідовність термінів, обраних випадково і незалежно з суміші таких розподілів, і ставиться завдання відновлення компонентів суміші по вибірці[⇨].
Хоча тематичне моделювання традиційно описувалося і застосовувалося в обробці природної мови, воно знайшло своє застосування і в інших областях, наприклад, таких як біоінформатика.
Історія
Перший опис тематичного моделювання з'явилося в роботі Рагавана, Пападімітріу, Томакі і Вемполи 1998 року. Томас Гофман в 1999 році запропонував імовірнісне приховане семантичне індексування (PLSI). Одна з найпоширеніших тематичних моделей – це [en] (LDA). Ця модель є узагальненням імовірнісного семантичного індексування і розроблена [en], Ендрю Ином і [en] у 2002 році. Інші тематичні моделі, як правило, є розширенням LDA, наприклад, [en] покращує LDA за рахунок введення додаткових кореляційних коефіцієнтів для кожного слова, яке становить тему.
Тематичні дослідження
Темплтон зробив огляд робіт з тематичного моделювання в гуманітарних науках, згрупованих за синхронним і діахронічним підходом. Синхронні підходи виділяють теми в певний момент часу, наприклад, Джокерс за допомогою тематичної моделі досліджував, про що писали блогери в День цифрових гуманітарних наук в 2010 році.
Діахронічні підходи, включаючи визначення Блока та Ньюмана про часову динаміку тем у Пенсільванській газеті 1728-1800 року. Грифітс і Стейверс використовували тематичне моделювання для оглядів журналу PNAS, визначали зміни популярності тем з 1991 по 2001 рік. Блевін створив тематичну модель щоденника Марти Балладс. Мімно використовував тематичне моделювання для аналізу 24 журналів з класичної філології та археології за 150 років, щоб визначити зміни популярності тем і дізнатися, наскільки сильно змінилися журнали за цей час.
Алгоритми тематичного моделювання
У роботі Девіда Блея «Введення в тематичне моделювання» розглянуто найбільш популярний алгоритм – Латентне розміщення Діріхле[⇨]. На практиці дослідники використовують одну з евристик методу максимальної правдоподібності, методи сингулярного розкладу (SVD), метод моментів, алгоритм, заснований на невід'ємній матриці факторизації (NMF), імовірнісні тематичні моделі, імовірнісний латентно-семантичний аналіз, латентне розміщення Діріхле. У роботі Воронцова К. В. розглянуто варіації основних алгоритмів тематичного моделювання: робастна тематична модель, тематичні моделі класифікації, динамічні тематичні моделі, ієрархічні тематичні моделі, багатомовні тематичні моделі, моделі тексту як послідовності слів, багатомодальні тематичні моделі .
Імовірнісні тематичні моделі засновані на наступних припущеннях:
- Порядок документів у колекції не має значення
- Порядок слів у документі не має значення, документ – мішок слів
- Слова, що зустрічаються часто в більшості документів, не важливі для визначення тематики
- Колекцію документів можна представити як вибірку пар документ-слово , ,
- Кожна тема описується невідомим розподілом на множині слів
- Кожен документ описується невідомим розподілом на множині тем
- Гіпотеза умовної незалежності
Побудувати тематичну модель – значить, знайти матриці та по колекції . У більш складних імовірнісних тематичних моделях деякі з цих припущень замінюються більш реалістичними.
Імовірнісний латентно-семантичний аналіз
[en] (PLSA) запропонований Томасом Гофманом у 1999 році. Імовірнісна модель появи пари «документ-слово» може бути записана трьома еквівалентними способами:
де — множина тем;
- — невідомий апріорний розподіл тем у всій колекції;
- — апріорний розподіл на множині документів, емпірична оцінка , де — сумарна довжина всіх документів;
- — апріорний розподіл на множині слів, емпірична оцінка , де — число входжень слова в усі документи;
Шукані умовні розподілу виражаються через за формулою Баєса:
Для ідентифікації параметрів тематичної моделі по колекції документів застосовується принцип максимуму правдоподібності, який призводить до задачі максимізації функціоналу
при обмеженнях нормування
де — число входжень слова у документ . Для вирішення даної оптимізаційної задачі зазвичай застосовується EM-алгоритм.
Основні недоліки PLSA:
- Число параметрів зростає лінійно по числу документів в колекції, що може призводити до перенавчання моделі.
- При додаванні нового документа у колекцію, розподіл неможливо обчислити за тими ж формулами, що і для інших документів, не перебудовуючи всю модель заново.
Латентне розміщення Діріхле
[en] (LDA) був запропонований Девідом Блеєм у 2003 році.
У цьому методі усунені основні недоліки PLSA.
Метод LDA заснований на тій самій імовірнісній моделі:
при додаткових припущеннях:
- вектори документів породжуються одним і тим же імовірнісним розподілом на нормованих -мірних векторах; цей розподіл зручно взяти з параметричного сімейства розподілів Діріхле ;
- вектори тем породжуються одним і тим же імовірнісним розподілом на нормованих векторах розмірності ; цей розподіл зручно взяти з параметричного сімейства розподілів Діріхле .
Для ідентифікації параметрів моделі LDA по колекції документів застосовується [en], варіаційний баєсівський висновок або [en].
Див. також
- [en]
- [en]
Примітки
- Коршунов, 2012.
- Воронцов, 2013.
- Ali10, 2010.
- Воронцов12, 2012.
- Пападимитриу, 1998.
- Хофманн, 1999.
- Блей2003, 2003.
- Тэмплтон, 2011.
- Джокерс, 2010.
- НьюманБлок, 2006.
- Грифитс, 2004.
- Блевин, 2010.
- Мимно, 2012.
- Блей2012, 2012.
- Коршунов, 2012, с. 229.
- Воронцов, 2013, с. 6.
- Воронцов13, 2013, с. 5.
- ВоронцовМЛ, 2013, с. 5.
- К. В. Воронцов. Вероятностное тематическое моделирование (PDF) (русский) .
Література
- Коршунов Антон; Гомзин Андрей (2012). Тематическое моделирование текстов на естественном языке (журнал) (вид. Труды Института системного программирования РАН).
- Воронцов К.В. (2013). Вероятностное тематическое моделирование (PDF) (web) (вид. www.machinelearning.ru).
- Воронцов К.В.; Потапенко А.А. (2012). Регуляризация, робастность и разреженность вероятностных тематических моделей (журнал) (вид. Компьютерные исследования и моделирование): 693—706.
- Воронцов К.В. (2013). Аддитивная регуляризация вероятностных тематических моделей Презентация (PDF) (web) (вид. www.machinelearning.ru).
- Воронцов К.В. (2013). Вероятностные тематические модели коллекции текстовых документов Презентация (PDF) (web) (вид. www.machinelearning.ru).
- Марк Стейверс; Tom Griffiths (2007). Вероятностная тематическая модель. (PDF). Справочник скрытого семантического анализа. Psychology Press. ISBN . Архівовано червень 24, 2013 на сайті Wayback Machine.
- Daud Ali; Li Juanzi; Zhou Lizhu; Muhammad Faqir (2010). Knowledge discovery through directed probabilistic topic models: a survey. In Proceedings of Frontiers of Computer Science in China (web) (вид. www.researchgate.net).
- Christos Papadimitriou; Prabhakar Raghavan; Hisao Tamaki; Santosh Vempala (1998). (вид. Proceedings of ACM PODS). Архів оригіналу за 9 травня 2013.
- Thomas Hoffman (1999). (PDF) (вид. Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval). Архів оригіналу (PDF) за 14 грудня 2010.
- David M. Blei; Andrew Y. Ng; Michael I. Jordan (2003). (вид. Journal of Machine Learning Research). Архів оригіналу за 1 травня 2012.
- David Blei (2012). (PDF) (вид. Communications of the ACM): 77—84. Архів оригіналу (PDF) за 15 лютого 2017.
- David Blei; J.D. Lafferty (2009). (PDF) (web). Архів оригіналу (PDF) за 31 травня 2013.
- David Blei; J.D. Lafferty (2007). (PDF) (вид. Annals of Applied Statistics): 17—35. doi:10.1214/07-AOAS114. Архів оригіналу (PDF) за 15 лютого 2017.
- David Mimno (2012). Computational Historiography: Data Mining in a Century of Classics Journals (PDF) (журнал) (вид. Journal on Computing and Cultural Heritag). doi:10.1145/2160165.2160168.
- Matthew L. Jockers (2010). Who's your DH Blog Mate: Match-Making the Day of DH Bloggers with Topic Modeling (web).
- E. Микс (2011). Понимание цифровых гуманитарных наук (web).
- C. Тэмплтон (2011). Тематическое моделирование в гуманитарных науках: обзор (web) (вид. Maryland Institute for Technology in the Humanities Blog).
- T. Гифитс; М. Стейверс (2004). Нахождение научных тем (журнал) (вид. Proceedings of the National Academy of Sciences). doi:10.1073/pnas.0307752101. PMID 14872004.
- T. Янг; A Торгет; Р. Mihalcea (2011). (PDF) (журнал) (вид. Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. The Association for Computational Linguistics, Madison): 96—104. Архів оригіналу (PDF) за 27 березня 2014.
- С. Блок (2006). Делаем больше с оцифровкой- введение в тематическое моделирование в ранних американских источниках (журнал) (вид. Common-place The Interactive Journal of Early American Life).
- Д. Ньюман; С. Блок (2006). Вероятностное тематическое разложение в газетах 18 века (PDF) (журнал) (вид. Journal of the American Society for Information Science and Technology). doi:10.1002/asi.20342.
- C. Блевин (2010). Тематическое моделирование дневника Марты Баллардс (web) (вид. historying).
Посилання
- Лекция: Тематическое моделирование — К. В. Воронцов // (відео-лекції).
- Лекция 2: Тематическое моделирование — К. В. Воронцов // (відео-лекції).
- Тематическое моделирование.
- Коллекции документов для тематического моделирования.
- Полностью разреженные тематические модели (перевод) / Fully Sparse Topic Models (PDF).
- Обзор по вероятностным тематическим моделям (PDF).
- Тематические модели для коллекции текстов (PDF).
- Байесовские методы машинного обучения (курс лекций, Д. П. Ветров, Д. А. Кропотов).
- Тепллтон, Клай. Тематическое моделирование в гуманитарных науках. Общий обзор (вид. Maryland Institute for Technology in the Humanities).
- Применение тематического моделирования для анализа новостей и ревю. Video of a Google Tech Talk presentation by Alice Oh on topic modeling with Latent Dirichlet allocation
- Моделирование науки: Динамическое тематическое моделирование научных исследований. Video of a Google Tech Talk presentation by David M. Blei
- Автоматизированная тематическая модель в политической науке. Video of a presentation by Brandon Stewart at the Tools for Text Workshop, 14 June 2010
- Лекция: Тематическое моделирование — Дэвид Блей 2009 г. Відео-лекція від Принстонського університету
- Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем Диалог 2014
- Parsimonious Topic Models with Salient Word Discovery
Програмне забезпечення та програмні бібліотеки
- Малет (програма)
- Інструментарій Стенфордського університету з тематичного моделювання
- GenSim — «тематичне моделювання для людей»
- LDA C# LDA in Infer.NET
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Tematichne modelyuvannya sposib pobudovi modeli kolekciyi tekstovih dokumentiv yaka viznachaye do yakih tem nalezhit kozhen z dokumentiv Pobudova tematichnoyi modeli dokumenta p w t displaystyle p w t matricya shukanih umovnih rozpodiliv sliv za temami p t d displaystyle p t d matricya shukanih umovnih rozpodiliv tem za dokumentami d displaystyle d dokument w displaystyle w slovo d w displaystyle d w sposterezhuvani zminni t displaystyle t tema prihovana zminna Tematichna model angl topic model kolekciyi tekstovih dokumentiv viznachaye do yakih tem nalezhit kozhen dokument i yaki slova termini utvoryuyut kozhnu temu Perehid z prostoru terminiv v prostir znajdenih tematik dopomagaye virishuvati sinonimiyu i polisemiyu terminiv a takozh efektivnishe virishuvati taki zavdannya yak tematichnij poshuk klasifikaciya sumarizaciya i anotaciya kolekcij dokumentiv i novinnih potokiv Tematichne modelyuvannya yak vid statistichnih modelej dlya znahodzhennya prihovanih tem sho zustrichayutsya v kolekciyi dokumentiv znajshlo svoye zastosuvannya v takih oblastyah yak mashinne navchannya i obrobka prirodnoyi movi Doslidniki vikoristovuyut rizni tematichni modeli dlya analizu tekstiv tekstovih arhiviv dokumentiv dlya analizu zmini tem u naborah dokumentiv Intuyitivno rozumiyuchi sho dokument vidnositsya do pevnoyi temi v dokumentah prisvyachenih odnij temi mozhna zustriti deyaki slova chastishe za inshi Napriklad slova sobaka i kistka zustrichayutsya chastishe v dokumentah pro sobak kishki i moloko budut zustrichatisya v dokumentah pro koshenyat prijmenniki v ta na budut zustrichatisya v oboh tematikah Zazvichaj dokument stosuyetsya kilkoh tem v riznih proporciyah Takim chinom dlya dokumentu v yakomu 10 temi skladayut kishki a 90 temi sobaki mozhna pripustiti sho sliv pro sobak v 9 raziv bilshe Tematichne modelyuvannya vidobrazhaye cyu intuyiciyu v matematichnij strukturi yaka dozvolyaye na pidstavi vivchennya kolekciyi dokumentiv i doslidzhennya chastotnih harakteristik sliv v kozhnomu dokumenti zrobiti visnovok sho kozhen dokument ce deyakij balans tem Najbilshe zastosuvannya v suchasnih dodatkah znahodyat pidhodi sho gruntuyutsya na Bayesovih merezhah imovirnisnih modelyah na oriyentovanih grafah Imovirnisni tematichni modeli ce vidnosno moloda oblast doslidzhen v teoriyi nekerovanogo navchannya Odnim z pershih buv zaproponovanij imovirnisnij latentno semantichnij analiz PLSA zasnovanij na principi maksimumu pravdopodibnosti yak alternativa klasichnim metodam klasterizaciyi zasnovanim na obchislenni funkcij vidstani Slidom za PLSA buv zaproponovanij metod en i jogo chislenni uzagalnennya Imovirnisni tematichni modeli zdijsnyuyut m yaku klasterizaciyu dozvolyayuchi dokumentu abo terminu vidnositisya vidrazu do dekilkoh tem z riznimi jmovirnostyami Imovirnisni tematichni modeli opisuyut kozhnu temu diskretnim rozpodilom na mnozhini terminiv kozhen dokument diskretnim rozpodilom na mnozhini tem Peredbachayetsya sho kolekciya dokumentiv ce poslidovnist terminiv obranih vipadkovo i nezalezhno z sumishi takih rozpodiliv i stavitsya zavdannya vidnovlennya komponentiv sumishi po vibirci Hocha tematichne modelyuvannya tradicijno opisuvalosya i zastosovuvalosya v obrobci prirodnoyi movi vono znajshlo svoye zastosuvannya i v inshih oblastyah napriklad takih yak bioinformatika IstoriyaPershij opis tematichnogo modelyuvannya z yavilosya v roboti Ragavana Papadimitriu Tomaki i Vempoli 1998 roku Tomas Gofman v 1999 roci zaproponuvav imovirnisne prihovane semantichne indeksuvannya PLSI Odna z najposhirenishih tematichnih modelej ce en LDA Cya model ye uzagalnennyam imovirnisnogo semantichnogo indeksuvannya i rozroblena en Endryu Inom i en u 2002 roci Inshi tematichni modeli yak pravilo ye rozshirennyam LDA napriklad en pokrashuye LDA za rahunok vvedennya dodatkovih korelyacijnih koeficiyentiv dlya kozhnogo slova yake stanovit temu Tematichni doslidzhennya Templton zrobiv oglyad robit z tematichnogo modelyuvannya v gumanitarnih naukah zgrupovanih za sinhronnim i diahronichnim pidhodom Sinhronni pidhodi vidilyayut temi v pevnij moment chasu napriklad Dzhokers za dopomogoyu tematichnoyi modeli doslidzhuvav pro sho pisali blogeri v Den cifrovih gumanitarnih nauk v 2010 roci Diahronichni pidhodi vklyuchayuchi viznachennya Bloka ta Nyumana pro chasovu dinamiku tem u Pensilvanskij gazeti 1728 1800 roku Grifits i Stejvers vikoristovuvali tematichne modelyuvannya dlya oglyadiv zhurnalu PNAS viznachali zmini populyarnosti tem z 1991 po 2001 rik Blevin stvoriv tematichnu model shodennika Marti Ballads Mimno vikoristovuvav tematichne modelyuvannya dlya analizu 24 zhurnaliv z klasichnoyi filologiyi ta arheologiyi za 150 rokiv shob viznachiti zmini populyarnosti tem i diznatisya naskilki silno zminilisya zhurnali za cej chas Algoritmi tematichnogo modelyuvannyaU roboti Devida Bleya Vvedennya v tematichne modelyuvannya rozglyanuto najbilsh populyarnij algoritm Latentne rozmishennya Dirihle Na praktici doslidniki vikoristovuyut odnu z evristik metodu maksimalnoyi pravdopodibnosti metodi singulyarnogo rozkladu SVD metod momentiv algoritm zasnovanij na nevid yemnij matrici faktorizaciyi NMF imovirnisni tematichni modeli imovirnisnij latentno semantichnij analiz latentne rozmishennya Dirihle U roboti Voroncova K V rozglyanuto variaciyi osnovnih algoritmiv tematichnogo modelyuvannya robastna tematichna model tematichni modeli klasifikaciyi dinamichni tematichni modeli iyerarhichni tematichni modeli bagatomovni tematichni modeli modeli tekstu yak poslidovnosti sliv bagatomodalni tematichni modeli Imovirnisni tematichni modeli zasnovani na nastupnih pripushennyah Poryadok dokumentiv u kolekciyi ne maye znachennya Poryadok sliv u dokumenti ne maye znachennya dokument mishok sliv Slova sho zustrichayutsya chasto v bilshosti dokumentiv ne vazhlivi dlya viznachennya tematiki Kolekciyu dokumentiv mozhna predstaviti yak vibirku par dokument slovo d w displaystyle d w d D displaystyle d in D w Wd displaystyle w in mathit W d Kozhna tema t T displaystyle t in T opisuyetsya nevidomim rozpodilom p W t displaystyle p mathit W t na mnozhini sliv w W displaystyle w in mathit W Kozhen dokument d D displaystyle d in D opisuyetsya nevidomim rozpodilom p t d displaystyle p t d na mnozhini tem t T displaystyle t in T Gipoteza umovnoyi nezalezhnosti p w t d p w t displaystyle p w t d p w t Pobuduvati tematichnu model znachit znajti matrici F p w t displaystyle Phi p w t ta 8 p t d displaystyle Theta p t d po kolekciyi D displaystyle mathit D U bilsh skladnih imovirnisnih tematichnih modelyah deyaki z cih pripushen zaminyuyutsya bilsh realistichnimi Imovirnisnij latentno semantichnij analiz Imovirnisnij latentno semantichnij analiz PLSA d displaystyle d dokument w displaystyle w slovo d w displaystyle d w sposterezhuvani zminni t displaystyle t tema prihovana zminna p d displaystyle p d apriornij rozpodil na mnozhini dokumentiv p w t p t d displaystyle p w t p t d shukani umovni rozpodilu D displaystyle D kolekciya dokumentiv N displaystyle N dovzhina dokumenta v slovah en PLSA zaproponovanij Tomasom Gofmanom u 1999 roci Imovirnisna model poyavi pari dokument slovo mozhe buti zapisana troma ekvivalentnimi sposobami p d w t Tp t p w t p d t t Tp d p w t p t d t Tp w p t w p d t displaystyle p d w sum t in T p t p w t p d t sum t in T p d p w t p t d sum t in T p w p t w p d t de T displaystyle T mnozhina tem p t displaystyle p t nevidomij apriornij rozpodil tem u vsij kolekciyi p d displaystyle p d apriornij rozpodil na mnozhini dokumentiv empirichna ocinka p d nd n displaystyle p d n d n de n dnd displaystyle n sum d n d sumarna dovzhina vsih dokumentiv p w displaystyle p w apriornij rozpodil na mnozhini sliv empirichna ocinka p w nw n displaystyle p w n w n de nw displaystyle n w chislo vhodzhen slova w displaystyle w v usi dokumenti Shukani umovni rozpodilu p w t p t d displaystyle p w t p t d virazhayutsya cherez p t w p d t displaystyle p t w p d t za formuloyu Bayesa p w t p t w p w w p t w p w p t d p d t p t t p d t p t displaystyle p w t frac p t w p w sum w p t w p w qquad p t d frac p d t p t sum t p d t p t Dlya identifikaciyi parametriv tematichnoyi modeli po kolekciyi dokumentiv zastosovuyetsya princip maksimumu pravdopodibnosti yakij prizvodit do zadachi maksimizaciyi funkcionalu d D w dndwln t Tfwt8td maxF 8 displaystyle sum d in D sum w in d n dw ln sum t in mathrm T varphi wt theta td to max Phi Theta pri obmezhennyah normuvannya wp w t 1 tp t d 1 tp t 1 displaystyle sum w p w t 1 sum t p t d 1 sum t p t 1 de ndw displaystyle n dw chislo vhodzhen slova w displaystyle w u dokument d displaystyle d Dlya virishennya danoyi optimizacijnoyi zadachi zazvichaj zastosovuyetsya EM algoritm Osnovni nedoliki PLSA Chislo parametriv zrostaye linijno po chislu dokumentiv v kolekciyi sho mozhe prizvoditi do perenavchannya modeli Pri dodavanni novogo dokumenta d displaystyle d u kolekciyu rozpodil p t d displaystyle p t d nemozhlivo obchisliti za timi zh formulami sho i dlya inshih dokumentiv ne perebudovuyuchi vsyu model zanovo Latentne rozmishennya Dirihle Latentne rozmishennya Dirihle LDA w displaystyle w slovo sposterezhuvana zminna t displaystyle t tema prihovana zminna D displaystyle D kolekciya dokumentiv N displaystyle N dovzhina dokumenta v slovah K displaystyle K kilkist tem v kolekciyi 8 displaystyle theta rozpodil tem u dokumenti ϕ displaystyle phi rozpodil sliv v temi en LDA buv zaproponovanij Devidom Bleyem u 2003 roci U comu metodi usuneni osnovni nedoliki PLSA Metod LDA zasnovanij na tij samij imovirnisnij modeli p d w t Tp d p w t p t d displaystyle p d w sum t in T p d p w t p t d pri dodatkovih pripushennyah vektori dokumentiv 8d p t d t T displaystyle theta d bigl p t d t in T bigr porodzhuyutsya odnim i tim zhe imovirnisnim rozpodilom na normovanih T displaystyle T mirnih vektorah cej rozpodil zruchno vzyati z parametrichnogo simejstva rozpodiliv Dirihle Dir 8 a a R T displaystyle mathrm Dir theta alpha alpha in mathbb R T vektori tem ϕt p w t w W displaystyle phi t bigl p w t w in W bigr porodzhuyutsya odnim i tim zhe imovirnisnim rozpodilom na normovanih vektorah rozmirnosti W displaystyle W cej rozpodil zruchno vzyati z parametrichnogo simejstva rozpodiliv Dirihle Dir 8 b b R W displaystyle mathrm Dir theta beta beta in mathbb R W Dlya identifikaciyi parametriv modeli LDA po kolekciyi dokumentiv zastosovuyetsya en variacijnij bayesivskij visnovok abo en Div takozh en en PrimitkiKorshunov 2012 Voroncov 2013 Ali10 2010 Voroncov12 2012 Papadimitriu 1998 Hofmann 1999 Blej2003 2003 Templton 2011 Dzhokers 2010 NyumanBlok 2006 Grifits 2004 Blevin 2010 Mimno 2012 Blej2012 2012 Korshunov 2012 s 229 Voroncov 2013 s 6 Voroncov13 2013 s 5 VoroncovML 2013 s 5 K V Voroncov Veroyatnostnoe tematicheskoe modelirovanie PDF russkij LiteraturaKorshunov Anton Gomzin Andrej 2012 Tematicheskoe modelirovanie tekstov na estestvennom yazyke zhurnal vid Trudy Instituta sistemnogo programmirovaniya RAN Voroncov K V 2013 Veroyatnostnoe tematicheskoe modelirovanie PDF web vid www machinelearning ru Voroncov K V Potapenko A A 2012 Regulyarizaciya robastnost i razrezhennost veroyatnostnyh tematicheskih modelej zhurnal vid Kompyuternye issledovaniya i modelirovanie 693 706 Voroncov K V 2013 Additivnaya regulyarizaciya veroyatnostnyh tematicheskih modelej Prezentaciya PDF web vid www machinelearning ru Voroncov K V 2013 Veroyatnostnye tematicheskie modeli kollekcii tekstovyh dokumentov Prezentaciya PDF web vid www machinelearning ru Mark Stejvers Tom Griffiths 2007 Veroyatnostnaya tematicheskaya model PDF Spravochnik skrytogo semanticheskogo analiza Psychology Press ISBN 978 0 8058 5418 3 Arhivovano cherven 24 2013 na sajti Wayback Machine Daud Ali Li Juanzi Zhou Lizhu Muhammad Faqir 2010 Knowledge discovery through directed probabilistic topic models a survey In Proceedings of Frontiers of Computer Science in China web vid www researchgate net Christos Papadimitriou Prabhakar Raghavan Hisao Tamaki Santosh Vempala 1998 vid Proceedings of ACM PODS Arhiv originalu za 9 travnya 2013 Thomas Hoffman 1999 PDF vid Proceedings of the Twenty Second Annual International SIGIR Conference on Research and Development in Information Retrieval Arhiv originalu PDF za 14 grudnya 2010 David M Blei Andrew Y Ng Michael I Jordan 2003 vid Journal of Machine Learning Research Arhiv originalu za 1 travnya 2012 David Blei 2012 PDF vid Communications of the ACM 77 84 Arhiv originalu PDF za 15 lyutogo 2017 David Blei J D Lafferty 2009 PDF web Arhiv originalu PDF za 31 travnya 2013 David Blei J D Lafferty 2007 PDF vid Annals of Applied Statistics 17 35 doi 10 1214 07 AOAS114 Arhiv originalu PDF za 15 lyutogo 2017 David Mimno 2012 Computational Historiography Data Mining in a Century of Classics Journals PDF zhurnal vid Journal on Computing and Cultural Heritag doi 10 1145 2160165 2160168 Matthew L Jockers 2010 Who s your DH Blog Mate Match Making the Day of DH Bloggers with Topic Modeling web E Miks 2011 Ponimanie cifrovyh gumanitarnyh nauk web C Templton 2011 Tematicheskoe modelirovanie v gumanitarnyh naukah obzor web vid Maryland Institute for Technology in the Humanities Blog T Gifits M Stejvers 2004 Nahozhdenie nauchnyh tem zhurnal vid Proceedings of the National Academy of Sciences doi 10 1073 pnas 0307752101 PMID 14872004 T Yang A Torget R Mihalcea 2011 PDF zhurnal vid Proceedings of the 5th ACL HLT Workshop on Language Technology for Cultural Heritage Social Sciences and Humanities The Association for Computational Linguistics Madison 96 104 Arhiv originalu PDF za 27 bereznya 2014 S Blok 2006 Delaem bolshe s ocifrovkoj vvedenie v tematicheskoe modelirovanie v rannih amerikanskih istochnikah zhurnal vid Common place The Interactive Journal of Early American Life D Nyuman S Blok 2006 Veroyatnostnoe tematicheskoe razlozhenie v gazetah 18 veka PDF zhurnal vid Journal of the American Society for Information Science and Technology doi 10 1002 asi 20342 C Blevin 2010 Tematicheskoe modelirovanie dnevnika Marty Ballards web vid historying PosilannyaLekciya Tematicheskoe modelirovanie K V Voroncov video lekciyi Lekciya 2 Tematicheskoe modelirovanie K V Voroncov video lekciyi Tematicheskoe modelirovanie Kollekcii dokumentov dlya tematicheskogo modelirovaniya Polnostyu razrezhennye tematicheskie modeli perevod Fully Sparse Topic Models PDF Obzor po veroyatnostnym tematicheskim modelyam PDF Tematicheskie modeli dlya kollekcii tekstov PDF Bajesovskie metody mashinnogo obucheniya kurs lekcij D P Vetrov D A Kropotov Tepllton Klaj Tematicheskoe modelirovanie v gumanitarnyh naukah Obshij obzor vid Maryland Institute for Technology in the Humanities Primenenie tematicheskogo modelirovaniya dlya analiza novostej i revyu Video of a Google Tech Talk presentation by Alice Oh on topic modeling with Latent Dirichlet allocation Modelirovanie nauki Dinamicheskoe tematicheskoe modelirovanie nauchnyh issledovanij Video of a Google Tech Talk presentation by David M Blei Avtomatizirovannaya tematicheskaya model v politicheskoj nauke Video of a presentation by Brandon Stewart at the Tools for Text Workshop 14 June 2010 Lekciya Tematicheskoe modelirovanie Devid Blej 2009 g Video lekciya vid Prinstonskogo universitetu Regulyarizaciya veroyatnostnyh tematicheskih modelej dlya povysheniya interpretiruemosti i opredeleniya chisla tem Dialog 2014 Parsimonious Topic Models with Salient Word DiscoveryProgramne zabezpechennya ta programni biblioteki Malet programa Instrumentarij Stenfordskogo universitetu z tematichnogo modelyuvannya GenSim tematichne modelyuvannya dlya lyudej LDA C LDA in Infer NET