TF-IDF (від англ. TF — term frequency, IDF — inverse document frequency) — статистичний показник, що використовується для оцінки важливості слів у контексті документа, що є частиною колекції документів чи корпусу. Вага (значимість) слова пропорційна кількості вживань цього слова у документі, і обернено пропорційна частоті вживання слова у інших документах колекції.
Показник TF-IDF використовується в задачах аналізу текстів та інформаційного пошуку. Його можна застосовувати як один з критеріїв релевантності документа до пошукового запиту, а також при розрахунку міри спорідненості документів при кластеризації.
Найпростішу функцію ранжування можна визначити як суму TF-IDF кожного терміну в запиті. Більшість просунутих функцій ранжування ґрунтуються на цій простій моделі.
Формула
TF (term frequency — частота слова) — відношення числа входжень обраного слова до загальної кількості слів документа. Таким чином, оцінюється важливість слова в межах обраного документа. Термін був введений Карен Спарк Джонс.
,
де є число входжень слова в документ, а в знаменнику — загальна кількість слів в документі.
IDF (inverse document frequency — обернена частота документа) — інверсія частоти, з якою слово зустрічається в документах колекції. Використання IDF зменшує вагу широковживаних слів.
,
де
- |D| — кількість документів колекції;
- — кількість документів, в яких зустрічається слово (коли ).
Вибір основи логарифма у формулі не має значення, адже зміна основи призведе до зміни ваги кожного слова на постійний множник, тобто вагове співвідношення залишиться незмінним.
Іншими словами, показник TF-IDF це добуток двох множників: TF та IDF.
Більшу вагу TF-IDF отримають слова з високою частотою появи в межах документа та низькою частотою вживання в інших документах колекції.
Застосування в моделі векторного простору
Міра TF-IDF часто використовується для подання документів колекції у вигляді числових векторів, що відображають важливість використання кожного слова з деякого набору слів (кількість слів набору визначає розмірність вектора) в кожному документі. Подібна модель називається векторною моделлю і дає можливість порівнювати тексти, порівнюючи їх представляють вектора в певний метриці (евклідова відстань, косинусна міра, манхеттенська відстань, відстань Чебишова та інші), тобто виконувати кластерний аналіз.
Приклад
Формулу TF-IDF як правило застосовують до нормалізованих документів, в яких слова приведені до основи. Досягти такої форми дозволяють алгоритми стемінгу.
Текст 1 | Текст 2 | Текст 3 | |
Початковий варіант | Дніпро — третя за довжиною й площею басейну річка Європи, має найдовше русло в межах України. Довжина Дніпра 2201 км. Дніпро — типова рівнинна річка з повільною й спокійною течією. | Вчора у Горішніх Плавнях з Дніпра рятувальники дістали тіло місцевого мешканця. Як повідомили в управлінні з питань надзвичайних ситуацій, чоловік зник безвісти ще у лютому. | Продається будинок поблизу річки Ятрань (Черкаська область): сад з городом, колодязь, асфальтоване подвір'я, гараж, господарське приміщення. Біля будинку знаходиться водна свердловина. |
Після стемінгу | дніпр трет за довжин й площ басейн річк європ має найдовш русл в меж україн довжин дніпр 2201 км дніпр типов рівнин річк з повільн й спокійн течі | вчора у горішн плавн з дніпр рятувальн діста тіл місцев мешканц як повідом в управлін з питан надзвичайн ситуаці чолові зник безвіст ще у лют | прода будин поблиз річк ятран черкас облас сад з город колодяз асфальт подвір гараж господарс приміщен біля будин знаход вод свердловин |
К-ть слів в документі | 28 | 24 | 21 |
Слова, що зустрічаються 3 рази | дніпр; TF = 3/28 = 0,1071 | x | x |
Слова, що зустрічаються 2 рази | й, річк; TF = 2/28 = 0,0714 | з, у; TF = 2/24 = 0,0833 | будин; TF = 2/21 = 0,0952 |
Слова, що зустрічаються 1 раз | TF = 1/28 = 0,0357 | TF = 1/24 = 0,0417 | TF = 1/21 = 0,0476 |
Тепер спробуємо визначити значення IDF для найпоширеніших слів:
Слово | К-ть текстів, що містять слово | IDF |
з | 3 | log(3/3) = 0 |
Дніпро | 2 | log(3/2) = 0,1761 |
Річка | 2 | log(3/2) = 0,1761 |
Будинок | 1 | log(3/1) = 0,4771 |
Залишається лише визначити TF-IDF для поширених слів у розрізі документів:
TF-IDF | Текст 1 | Текст 2 | Текст 3 |
Будинок | x | x | 0,0952 * 0,4771 = 0,0454 |
Дніпро | 0,1071 * 0,1761 = 0,0189 | 0,0417 * 0,1761 = 0,0073 | х |
з | 0,0357 * 0 = 0 | 0,0833 * 0 = 0 | 0,0476 * 0 = 0 |
Річка | 0,0714 * 0,1761 = 0,0126 | х | 0,0476 * 0,1761 = 0,0084 |
З цього прикладу можна зробити такі висновки:
- Слову «Дніпро» найбільше відповідає текст 1, хоча у тексті 2 воно теж фігурує;
- Слову «Будинок» відповідає лише текст 3;
- Слово «Річка» має відношення до 1 та 3 тексту, але 1 співвідноситься точніше. Цікаво, що у тексті 2 теж згадується річка, але за назвою, тому розрахунок TF-IDF цього не помічає;
- Прийменник «з» присутній у кожному документі колекції, а тому незважаючи на значення TF має найнижчі показники TF-IDF.
Див. також
Примітки
Література
- Jones K. S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation : журнал. — MCB University : MCB University Press, 2004. — Т. 60, № 5. — С. 493-502.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
TF IDF vid angl TF term frequency IDF inverse document frequency statistichnij pokaznik sho vikoristovuyetsya dlya ocinki vazhlivosti sliv u konteksti dokumenta sho ye chastinoyu kolekciyi dokumentiv chi korpusu Vaga znachimist slova proporcijna kilkosti vzhivan cogo slova u dokumenti i oberneno proporcijna chastoti vzhivannya slova u inshih dokumentah kolekciyi Pokaznik TF IDF vikoristovuyetsya v zadachah analizu tekstiv ta informacijnogo poshuku Jogo mozhna zastosovuvati yak odin z kriteriyiv relevantnosti dokumenta do poshukovogo zapitu a takozh pri rozrahunku miri sporidnenosti dokumentiv pri klasterizaciyi Najprostishu funkciyu ranzhuvannya mozhna viznachiti yak sumu TF IDF kozhnogo terminu v zapiti Bilshist prosunutih funkcij ranzhuvannya gruntuyutsya na cij prostij modeli FormulaTF term frequency chastota slova vidnoshennya chisla vhodzhen obranogo slova do zagalnoyi kilkosti sliv dokumenta Takim chinom ocinyuyetsya vazhlivist slova t i displaystyle t i v mezhah obranogo dokumenta Termin buv vvedenij Karen Spark Dzhons T F n i k n k displaystyle mathrm TF frac n i sum k n k de n i displaystyle n i ye chislo vhodzhen slova v dokument a v znamenniku zagalna kilkist sliv v dokumenti IDF inverse document frequency obernena chastota dokumenta inversiya chastoti z yakoyu slovo zustrichayetsya v dokumentah kolekciyi Vikoristannya IDF zmenshuye vagu shirokovzhivanih sliv I D F log D d i t i displaystyle mathrm IDF log frac D d i supset t i de D kilkist dokumentiv kolekciyi d i t i displaystyle d i supset t i kilkist dokumentiv v yakih zustrichayetsya slovo t i displaystyle t i koli n i 0 displaystyle n i neq 0 Vibir osnovi logarifma u formuli ne maye znachennya adzhe zmina osnovi prizvede do zmini vagi kozhnogo slova na postijnij mnozhnik tobto vagove spivvidnoshennya zalishitsya nezminnim Inshimi slovami pokaznik TF IDF ce dobutok dvoh mnozhnikiv TF ta IDF TF IDF T F I D F displaystyle text TF IDF mathrm TF cdot mathrm IDF Bilshu vagu TF IDF otrimayut slova z visokoyu chastotoyu poyavi v mezhah dokumenta ta nizkoyu chastotoyu vzhivannya v inshih dokumentah kolekciyi Zastosuvannya v modeli vektornogo prostoruMira TF IDF chasto vikoristovuyetsya dlya podannya dokumentiv kolekciyi u viglyadi chislovih vektoriv sho vidobrazhayut vazhlivist vikoristannya kozhnogo slova z deyakogo naboru sliv kilkist sliv naboru viznachaye rozmirnist vektora v kozhnomu dokumenti Podibna model nazivayetsya vektornoyu modellyu i daye mozhlivist porivnyuvati teksti porivnyuyuchi yih predstavlyayut vektora v pevnij metrici evklidova vidstan kosinusna mira manhettenska vidstan vidstan Chebishova ta inshi tobto vikonuvati klasternij analiz PrikladFormulu TF IDF yak pravilo zastosovuyut do normalizovanih dokumentiv v yakih slova privedeni do osnovi Dosyagti takoyi formi dozvolyayut algoritmi stemingu Tekst 1 Tekst 2 Tekst 3 Pochatkovij variant Dnipro tretya za dovzhinoyu j plosheyu basejnu richka Yevropi maye najdovshe ruslo v mezhah Ukrayini Dovzhina Dnipra 2201 km Dnipro tipova rivninna richka z povilnoyu j spokijnoyu techiyeyu Vchora u Gorishnih Plavnyah z Dnipra ryatuvalniki distali tilo miscevogo meshkancya Yak povidomili v upravlinni z pitan nadzvichajnih situacij cholovik znik bezvisti she u lyutomu Prodayetsya budinok poblizu richki Yatran Cherkaska oblast sad z gorodom kolodyaz asfaltovane podvir ya garazh gospodarske primishennya Bilya budinku znahoditsya vodna sverdlovina Pislya stemingu dnipr tret za dovzhin j plosh basejn richk yevrop maye najdovsh rusl v mezh ukrayin dovzhin dnipr 2201 km dnipr tipov rivnin richk z poviln j spokijn techi vchora u gorishn plavn z dnipr ryatuvaln dista til miscev meshkanc yak povidom v upravlin z pitan nadzvichajn situaci cholovi znik bezvist she u lyut proda budin pobliz richk yatran cherkas oblas sad z gorod kolodyaz asfalt podvir garazh gospodars primishen bilya budin znahod vod sverdlovin K t sliv v dokumenti 28 24 21 Slova sho zustrichayutsya 3 razi dnipr TF 3 28 0 1071 x x Slova sho zustrichayutsya 2 razi j richk TF 2 28 0 0714 z u TF 2 24 0 0833 budin TF 2 21 0 0952 Slova sho zustrichayutsya 1 raz TF 1 28 0 0357 TF 1 24 0 0417 TF 1 21 0 0476 Teper sprobuyemo viznachiti znachennya IDF dlya najposhirenishih sliv Slovo K t tekstiv sho mistyat slovo IDF z 3 log 3 3 0 Dnipro 2 log 3 2 0 1761 Richka 2 log 3 2 0 1761 Budinok 1 log 3 1 0 4771 Zalishayetsya lishe viznachiti TF IDF dlya poshirenih sliv u rozrizi dokumentiv TF IDF Tekst 1 Tekst 2 Tekst 3 Budinok x x 0 0952 0 4771 0 0454 Dnipro 0 1071 0 1761 0 0189 0 0417 0 1761 0 0073 h z 0 0357 0 0 0 0833 0 0 0 0476 0 0 Richka 0 0714 0 1761 0 0126 h 0 0476 0 1761 0 0084 Z cogo prikladu mozhna zrobiti taki visnovki Slovu Dnipro najbilshe vidpovidaye tekst 1 hocha u teksti 2 vono tezh figuruye Slovu Budinok vidpovidaye lishe tekst 3 Slovo Richka maye vidnoshennya do 1 ta 3 tekstu ale 1 spivvidnositsya tochnishe Cikavo sho u teksti 2 tezh zgaduyetsya richka ale za nazvoyu tomu rozrahunok TF IDF cogo ne pomichaye Prijmennik z prisutnij u kozhnomu dokumenti kolekciyi a tomu nezvazhayuchi na znachennya TF maye najnizhchi pokazniki TF IDF Div takozhVkladannya sliv Rozhodzhennya Kulbaka Lejblera Latentno semantichnij analiz Vzayemna informaciya PageRank Vektorna modelPrimitkiJones 2004 LiteraturaJones K S A statistical interpretation of term specificity and its application in retrieval Journal of Documentation zhurnal MCB University MCB University Press 2004 T 60 5 S 493 502