Підтримка
www.wikidata.uk-ua.nina.az
TF IDF vid angl TF term frequency IDF inverse document frequency statistichnij pokaznik sho vikoristovuyetsya dlya ocinki vazhlivosti sliv u konteksti dokumenta sho ye chastinoyu kolekciyi dokumentiv chi korpusu Vaga znachimist slova proporcijna kilkosti vzhivan cogo slova u dokumenti i oberneno proporcijna chastoti vzhivannya slova u inshih dokumentah kolekciyi Pokaznik TF IDF vikoristovuyetsya v zadachah analizu tekstiv ta informacijnogo poshuku Jogo mozhna zastosovuvati yak odin z kriteriyiv relevantnosti dokumenta do poshukovogo zapitu a takozh pri rozrahunku miri sporidnenosti dokumentiv pri klasterizaciyi Najprostishu funkciyu ranzhuvannya mozhna viznachiti yak sumu TF IDF kozhnogo terminu v zapiti Bilshist prosunutih funkcij ranzhuvannya gruntuyutsya na cij prostij modeli FormulaTF term frequency chastota slova vidnoshennya chisla vhodzhen obranogo slova do zagalnoyi kilkosti sliv dokumenta Takim chinom ocinyuyetsya vazhlivist slova t i displaystyle t i v mezhah obranogo dokumenta Termin buv vvedenij Karen Spark Dzhons T F n i k n k displaystyle mathrm TF frac n i sum k n k de n i displaystyle n i ye chislo vhodzhen slova v dokument a v znamenniku zagalna kilkist sliv v dokumenti IDF inverse document frequency obernena chastota dokumenta inversiya chastoti z yakoyu slovo zustrichayetsya v dokumentah kolekciyi Vikoristannya IDF zmenshuye vagu shirokovzhivanih sliv I D F log D d i t i displaystyle mathrm IDF log frac D d i supset t i de D kilkist dokumentiv kolekciyi d i t i displaystyle d i supset t i kilkist dokumentiv v yakih zustrichayetsya slovo t i displaystyle t i koli n i 0 displaystyle n i neq 0 Vibir osnovi logarifma u formuli ne maye znachennya adzhe zmina osnovi prizvede do zmini vagi kozhnogo slova na postijnij mnozhnik tobto vagove spivvidnoshennya zalishitsya nezminnim Inshimi slovami pokaznik TF IDF ce dobutok dvoh mnozhnikiv TF ta IDF TF IDF T F I D F displaystyle text TF IDF mathrm TF cdot mathrm IDF Bilshu vagu TF IDF otrimayut slova z visokoyu chastotoyu poyavi v mezhah dokumenta ta nizkoyu chastotoyu vzhivannya v inshih dokumentah kolekciyi Zastosuvannya v modeli vektornogo prostoruMira TF IDF chasto vikoristovuyetsya dlya podannya dokumentiv kolekciyi u viglyadi chislovih vektoriv sho vidobrazhayut vazhlivist vikoristannya kozhnogo slova z deyakogo naboru sliv kilkist sliv naboru viznachaye rozmirnist vektora v kozhnomu dokumenti Podibna model nazivayetsya vektornoyu modellyu i daye mozhlivist porivnyuvati teksti porivnyuyuchi yih predstavlyayut vektora v pevnij metrici evklidova vidstan kosinusna mira manhettenska vidstan vidstan Chebishova ta inshi tobto vikonuvati klasternij analiz PrikladFormulu TF IDF yak pravilo zastosovuyut do normalizovanih dokumentiv v yakih slova privedeni do osnovi Dosyagti takoyi formi dozvolyayut algoritmi stemingu Tekst 1 Tekst 2 Tekst 3 Pochatkovij variant Dnipro tretya za dovzhinoyu j plosheyu basejnu richka Yevropi maye najdovshe ruslo v mezhah Ukrayini Dovzhina Dnipra 2201 km Dnipro tipova rivninna richka z povilnoyu j spokijnoyu techiyeyu Vchora u Gorishnih Plavnyah z Dnipra ryatuvalniki distali tilo miscevogo meshkancya Yak povidomili v upravlinni z pitan nadzvichajnih situacij cholovik znik bezvisti she u lyutomu Prodayetsya budinok poblizu richki Yatran Cherkaska oblast sad z gorodom kolodyaz asfaltovane podvir ya garazh gospodarske primishennya Bilya budinku znahoditsya vodna sverdlovina Pislya stemingu dnipr tret za dovzhin j plosh basejn richk yevrop maye najdovsh rusl v mezh ukrayin dovzhin dnipr 2201 km dnipr tipov rivnin richk z poviln j spokijn techi vchora u gorishn plavn z dnipr ryatuvaln dista til miscev meshkanc yak povidom v upravlin z pitan nadzvichajn situaci cholovi znik bezvist she u lyut proda budin pobliz richk yatran cherkas oblas sad z gorod kolodyaz asfalt podvir garazh gospodars primishen bilya budin znahod vod sverdlovin K t sliv v dokumenti 28 24 21 Slova sho zustrichayutsya 3 razi dnipr TF 3 28 0 1071 x x Slova sho zustrichayutsya 2 razi j richk TF 2 28 0 0714 z u TF 2 24 0 0833 budin TF 2 21 0 0952 Slova sho zustrichayutsya 1 raz TF 1 28 0 0357 TF 1 24 0 0417 TF 1 21 0 0476 Teper sprobuyemo viznachiti znachennya IDF dlya najposhirenishih sliv Slovo K t tekstiv sho mistyat slovo IDF z 3 log 3 3 0 Dnipro 2 log 3 2 0 1761 Richka 2 log 3 2 0 1761 Budinok 1 log 3 1 0 4771 Zalishayetsya lishe viznachiti TF IDF dlya poshirenih sliv u rozrizi dokumentiv TF IDF Tekst 1 Tekst 2 Tekst 3 Budinok x x 0 0952 0 4771 0 0454 Dnipro 0 1071 0 1761 0 0189 0 0417 0 1761 0 0073 h z 0 0357 0 0 0 0833 0 0 0 0476 0 0 Richka 0 0714 0 1761 0 0126 h 0 0476 0 1761 0 0084 Z cogo prikladu mozhna zrobiti taki visnovki Slovu Dnipro najbilshe vidpovidaye tekst 1 hocha u teksti 2 vono tezh figuruye Slovu Budinok vidpovidaye lishe tekst 3 Slovo Richka maye vidnoshennya do 1 ta 3 tekstu ale 1 spivvidnositsya tochnishe Cikavo sho u teksti 2 tezh zgaduyetsya richka ale za nazvoyu tomu rozrahunok TF IDF cogo ne pomichaye Prijmennik z prisutnij u kozhnomu dokumenti kolekciyi a tomu nezvazhayuchi na znachennya TF maye najnizhchi pokazniki TF IDF Div takozhVkladannya sliv Rozhodzhennya Kulbaka Lejblera Latentno semantichnij analiz Vzayemna informaciya PageRank Vektorna modelPrimitkiJones 2004 LiteraturaJones K S A statistical interpretation of term specificity and its application in retrieval Journal of Documentation zhurnal MCB University MCB University Press 2004 T 60 5 S 493 502
Топ