Векторна модель (англ. vector space model) — в інформаційному пошуку алгебраїчне представлення колекції документів векторами одного спільного для всієї колекції векторного простору.
Векторна модель є основою для вирішення багатьох завдань інформаційного пошуку, таких як: пошук документа за запитом, класифікація документів, кластеризація документів.
Визначення
Документ у векторній моделі розглядається як невпорядкована множина термів. Термами в інформаційному пошуку називають слова, з яких складається текст, а також такі елементи тексту, як, наприклад, 2010, II-5 або Тянь-Шань.
Різними способами можна визначити вагу терма в документі — «важливість» слова для ідентифікації цього тексту. Наприклад, можна просто підрахувати кількість вживань терма в документі, так звану частоту терма, — чим частіше слово зустрічається в документі, тим більша у нього буде вага. Якщо терм не зустрічається в документі, то його вага в цьому документі дорівнює нулю.
Всі терми, які трапляються в документах оброблюваної колекції, можна впорядкувати. Якщо тепер для деякого документа виписати по порядку ваги всіх термів, включаючи ті, яких немає в цьому документі, вийде вектор, який і буде представленням цього документа у векторному просторі. Розмірність цього вектора, як і розмірність простору, дорівнює кількості різних термів у всій колекції, і є однаковою для всіх документів.
Більш формально
де dj — векторне уявлення j-го документа, wij — вага i-го терма в j-му документі, n — загальна кількість різних термів у всіх документах колекції.
Маючи таке подання для всіх документів, можна, наприклад, знаходити відстань між точками простору і тим самим вирішувати задачу подоби документів — чим ближче розташовані точки, тим більше схожі відповідні документи. У разі пошуку документа за запитом, запит теж представляється як вектор того ж простору — і можна обчислювати відповідність документів запиту.
Застосування
Рейтинг релевантності документів у пошуку за ключовими словами можна обчислити, використовуючи припущення про теорію спільних рис документа, порівнявши відхилення кутів між кожним вектором документу та оригінальним вектором запиту, де запит представлений як той же самий вид вектора як документа. На практиці легше обчислити косинус кута між векторами замість самого кута:
Де — перетин (тобто скалярний добуток) документу та вектори запиту, — нормаль вектора d2, к — нормаль вектора q. Нормаль вектора обчислюється наступною формулою:
Оскільки всі вектори, що розглядуються цією моделлю поелементно невід'ємні, нульовий косинус означає, що запит і вектор документа ортогональні і не збігаються (тобто в документі, що розглядають, не існує терму запит). Подивіться статтю косинусний коефіцієнт для отримання додаткової інформації.
Міра TF-IDF
У класичній векторній моделі, запропонованій Салтоном, Вонгом та Янгом, певні для слова міри в векторах документа — це продукти локальних та глобальних параметрів. Модель, відома як tf-idf модель. Маса вектора для документу d:
, де
та
- це частота терміну терму t у документі d (локальний параметр)
- це зворотна частота документу(глобальний параметр). — це загальна кількість документів у наборі документів; — це кількість документів, що містять терм t.
З використанням косинусу, подібність між документом dj та запитом q можна обчислити так:
Переваги
Векторна модель має наступні переваги над моделлю [en]:
- Проста модель, заснована на лінійній алгебрі
- Міра терміну не двійкова(бінарна)
- Дозволяє обчислювати нескінчену кількість подібностей між запитами та документами
- Дозволяє оцінювати документи згідно з їхньою можливою релевантністю
- Дозволяє часткові збіги
Обмеження
Векторна модель має наступні обмеження:
- Великі документи погано представлені, тому що вони мають недостатньо змінних подібності(маленький скалярний добуток та велика розмірність)
- Ключові слова у пошуку повинні точно відповідати термінам документа; підрядки терма можуть привести до «похибки першого роду»
- Семантична чутливість; документи зі схожим контекстом, але різним словником термів не пов'язані, видаючи у результаті «похибку другого роду»
- Порядок, у якому терми з'являються у документі, втрачається у векторному зображенні
- Теоретично передбачається, що терми статистично незалежні
- Вимірювання інтуїтивне, та не дуже формальне
Хоча багато з цих складностей можна подолати за допомогою інтеграції різних інструментів, включаючи математичні методи, такі як сингулярний розклад матриці та лексичні бази даних, такі як WordNet.
Моделі, засновані на векторній моделі та доповнюють її
Моделі, що засновані на векторній моделі та ті, що її доповнюють:
- [en]
- Латентно-семантичний аналіз
- [en]
- [en]
- Випадкове індексування
Програми, що реалізовують векторну модель
Наступні пакети програм можуть зацікавити бажаючих поекспериментувати з векторною моделлю та реалізувати пошукові служби, засновані на них.
Безкоштовні загальнодоступні програми
- Apache Lucene. Apache Lucene — високо-продуктивна бібліотека для повнотекстного пошуку, повністю написана на Java.
- Gensim — платформа Python+NumPy для векторного моделювання. Вона містить поетапні алгоритми для Tf-idf, латентно-семантичного індексування, рандомних проектувань та [en].
- Weka. Weka — популярний пакет збору даних для Java, що включає моделі WordVectors та Bag of words.
Примітки
- G. Salton, A. Wong, C. S. Yang, A vector space model for automatic indexing [ 26 січня 2020 у Wayback Machine.], Communications of the ACM, v.18 n.11, p.613-620, Nov. 1975
Література
- Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval [ 9 грудня 2012 у Wayback Machine.] Draft. Online edition. Cambridge University Press. — 2009. — 544 pp.
- Daniel Jurafsky, James H. MartinSpeech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Second Edition. Pearson Education International. — 2009. — 1024 pp.
- , A. Wong, and C. S. Yang (1975), ", " Communications of the ACM, vol. 18, nr. 11, pages 613—620. (Article in which a vector space model was presented)
- David Dubin (2004), The Most Influential Paper Gerard Salton Never Wrote (Explains the history of the Vector Space Model and the non-existence of a frequently cited publication)
- Description of the classic vector space model by Dr E. Garcia [ 12 серпня 2006 у Wayback Machine.]
- Relationship of vector space search to the «k-Nearest Neighbor» search [ 5 березня 2016 у Wayback Machine.]
Посилання
- Apache Lucene — програмна реалізація інформаційного пошуку, заснована на векторній моделі.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Vektorna model angl vector space model v informacijnomu poshuku algebrayichne predstavlennya kolekciyi dokumentiv vektorami odnogo spilnogo dlya vsiyeyi kolekciyi vektornogo prostoru Vektorna model ye osnovoyu dlya virishennya bagatoh zavdan informacijnogo poshuku takih yak poshuk dokumenta za zapitom klasifikaciya dokumentiv klasterizaciya dokumentiv ViznachennyaDokument u vektornij modeli rozglyadayetsya yak nevporyadkovana mnozhina termiv Termami v informacijnomu poshuku nazivayut slova z yakih skladayetsya tekst a takozh taki elementi tekstu yak napriklad 2010 II 5 abo Tyan Shan Riznimi sposobami mozhna viznachiti vagu terma v dokumenti vazhlivist slova dlya identifikaciyi cogo tekstu Napriklad mozhna prosto pidrahuvati kilkist vzhivan terma v dokumenti tak zvanu chastotu terma chim chastishe slovo zustrichayetsya v dokumenti tim bilsha u nogo bude vaga Yaksho term ne zustrichayetsya v dokumenti to jogo vaga v comu dokumenti dorivnyuye nulyu Vsi termi yaki traplyayutsya v dokumentah obroblyuvanoyi kolekciyi mozhna vporyadkuvati Yaksho teper dlya deyakogo dokumenta vipisati po poryadku vagi vsih termiv vklyuchayuchi ti yakih nemaye v comu dokumenti vijde vektor yakij i bude predstavlennyam cogo dokumenta u vektornomu prostori Rozmirnist cogo vektora yak i rozmirnist prostoru dorivnyuye kilkosti riznih termiv u vsij kolekciyi i ye odnakovoyu dlya vsih dokumentiv Bilsh formalno d j w 1 j w 2 j w t j displaystyle d j w 1 j w 2 j dotsc w t j q w 1 q w 2 q w n q displaystyle q w 1 q w 2 q dotsc w n q de dj vektorne uyavlennya j go dokumenta wij vaga i go terma v j mu dokumenti n zagalna kilkist riznih termiv u vsih dokumentah kolekciyi Mayuchi take podannya dlya vsih dokumentiv mozhna napriklad znahoditi vidstan mizh tochkami prostoru i tim samim virishuvati zadachu podobi dokumentiv chim blizhche roztashovani tochki tim bilshe shozhi vidpovidni dokumenti U razi poshuku dokumenta za zapitom zapit tezh predstavlyayetsya yak vektor togo zh prostoru i mozhna obchislyuvati vidpovidnist dokumentiv zapitu ZastosuvannyaRejting relevantnosti dokumentiv u poshuku za klyuchovimi slovami mozhna obchisliti vikoristovuyuchi pripushennya pro teoriyu spilnih ris dokumenta porivnyavshi vidhilennya kutiv mizh kozhnim vektorom dokumentu ta originalnim vektorom zapitu de zapit predstavlenij yak toj zhe samij vid vektora yak dokumenta Na praktici legshe obchisliti kosinus kuta mizh vektorami zamist samogo kuta cos 8 d 2 q d 2 q displaystyle cos theta frac mathbf d 2 cdot mathbf q left mathbf d 2 right left mathbf q right De d 2 q displaystyle mathbf d 2 cdot mathbf q peretin tobto skalyarnij dobutok dokumentu ta vektori zapitu d 2 displaystyle left mathbf d 2 right normal vektora d2 k normal vektora q Normal vektora obchislyuyetsya nastupnoyu formuloyu q i 1 n q i 2 displaystyle left mathbf q right sqrt sum i 1 n q i 2 Oskilki vsi vektori sho rozglyaduyutsya ciyeyu modellyu poelementno nevid yemni nulovij kosinus oznachaye sho zapit i vektor dokumenta ortogonalni i ne zbigayutsya tobto v dokumenti sho rozglyadayut ne isnuye termu zapit Podivitsya stattyu kosinusnij koeficiyent dlya otrimannya dodatkovoyi informaciyi Mira TF IDFU klasichnij vektornij modeli zaproponovanij Saltonom Vongom ta Yangom pevni dlya slova miri v vektorah dokumenta ce produkti lokalnih ta globalnih parametriv Model vidoma yak tf idf model Masa vektora dlya dokumentu d v d w 1 d w 2 d w N d T displaystyle mathbf v d w 1 d w 2 d ldots w N d T de w t d t f t d log D d D t d displaystyle w t d mathrm tf t d cdot log frac D d in D t in d ta t f t d displaystyle mathrm tf t d ce chastota terminu termu t u dokumenti d lokalnij parametr log D d D t d displaystyle log frac D d in D t in d ce zvorotna chastota dokumentu globalnij parametr D displaystyle D ce zagalna kilkist dokumentiv u nabori dokumentiv d D t d displaystyle d in D t in d ce kilkist dokumentiv sho mistyat term t Z vikoristannyam kosinusu podibnist mizh dokumentom dj ta zapitom q mozhna obchisliti tak s i m d j q d j q d j q i 1 N w i j w i q i 1 N w i j 2 i 1 N w i q 2 displaystyle mathrm sim d j q frac mathbf d j cdot mathbf q left mathbf d j right left mathbf q right frac sum i 1 N w i j w i q sqrt sum i 1 N w i j 2 sqrt sum i 1 N w i q 2 PerevagiVektorna model maye nastupni perevagi nad modellyu en Prosta model zasnovana na linijnij algebri Mira terminu ne dvijkova binarna Dozvolyaye obchislyuvati neskinchenu kilkist podibnostej mizh zapitami ta dokumentami Dozvolyaye ocinyuvati dokumenti zgidno z yihnoyu mozhlivoyu relevantnistyu Dozvolyaye chastkovi zbigiObmezhennyaVektorna model maye nastupni obmezhennya Veliki dokumenti pogano predstavleni tomu sho voni mayut nedostatno zminnih podibnosti malenkij skalyarnij dobutok ta velika rozmirnist Klyuchovi slova u poshuku povinni tochno vidpovidati terminam dokumenta pidryadki terma mozhut privesti do pohibki pershogo rodu Semantichna chutlivist dokumenti zi shozhim kontekstom ale riznim slovnikom termiv ne pov yazani vidayuchi u rezultati pohibku drugogo rodu Poryadok u yakomu termi z yavlyayutsya u dokumenti vtrachayetsya u vektornomu zobrazhenni Teoretichno peredbachayetsya sho termi statistichno nezalezhni Vimiryuvannya intuyitivne ta ne duzhe formalne Hocha bagato z cih skladnostej mozhna podolati za dopomogoyu integraciyi riznih instrumentiv vklyuchayuchi matematichni metodi taki yak singulyarnij rozklad matrici ta leksichni bazi danih taki yak WordNet Modeli zasnovani na vektornij modeli ta dopovnyuyut yiyiModeli sho zasnovani na vektornij modeli ta ti sho yiyi dopovnyuyut en Latentno semantichnij analiz en en Vipadkove indeksuvannyaProgrami sho realizovuyut vektornu modelNastupni paketi program mozhut zacikaviti bazhayuchih poeksperimentuvati z vektornoyu modellyu ta realizuvati poshukovi sluzhbi zasnovani na nih Bezkoshtovni zagalnodostupni programi Apache Lucene Apache Lucene visoko produktivna biblioteka dlya povnotekstnogo poshuku povnistyu napisana na Java Gensim platforma Python NumPy dlya vektornogo modelyuvannya Vona mistit poetapni algoritmi dlya Tf idf latentno semantichnogo indeksuvannya randomnih proektuvan ta en Weka Weka populyarnij paket zboru danih dlya Java sho vklyuchaye modeli WordVectors ta Bag of words PrimitkiG Salton A Wong C S Yang A vector space model for automatic indexing 26 sichnya 2020 u Wayback Machine Communications of the ACM v 18 n 11 p 613 620 Nov 1975LiteraturaChristopher D Manning Prabhakar Raghavan Hinrich Schutze An Introduction to Information Retrieval 9 grudnya 2012 u Wayback Machine Draft Online edition Cambridge University Press 2009 544 pp Daniel Jurafsky James H MartinSpeech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition Second Edition Pearson Education International 2009 1024 pp A Wong and C S Yang 1975 Communications of the ACM vol 18 nr 11 pages 613 620 Article in which a vector space model was presented David Dubin 2004 The Most Influential Paper Gerard Salton Never Wrote Explains the history of the Vector Space Model and the non existence of a frequently cited publication Description of the classic vector space model by Dr E Garcia 12 serpnya 2006 u Wayback Machine Relationship of vector space search to the k Nearest Neighbor search 5 bereznya 2016 u Wayback Machine PosilannyaApache Lucene programna realizaciya informacijnogo poshuku zasnovana na vektornij modeli