Інвертований індекс (англ. inverted index) — структура даних, в якій для кожного слова колекції документів у відповідному списку перераховані всі документи в колекції — в яких воно зустрілося. Інвертований індекс використовується для пошуку за текстами.
Є два варіанти інвертованого індексу:
- індекс, який містить лише список документів для кожного слова,
- індекс, додатково включає позицію слова в кожному документу
Застосування
Опишемо, як вирішується завдання знаходження документів, в яких зустрічаються всі слова з пошукового запиту. При обробці однослівного пошукового запиту відповідь вже є в інвертованому індексі — достатньо взяти список, відповідний слову із запиту. При обробці багатослівної запиту беруться списки, відповідні кожному зі слів запиту і пересічні.
Зазвичай в пошукових системах після побудови за допомогою інвертованого індексу списку документів, що містять слова із запиту, йде ранжування документів зі списку. Інвертований індекс — це найпопулярніша структура даних, яка використовується в інформаційному пошуку.
Приклад
Нехай у нас є корпус з трьох текстів "it is what it is"
, "what is it"
та "it is a banana"
, тоді інвертований індекс буде виглядати наступним чином:
"a": {2} "banana": {2} "is": {0, 1, 2} "it": {0, 1, 2} "what": {0, 1}
Тут цифри позначають номери текстів, у яких зустрілося відповідне слово. Тоді відпрацювання пошукового "what is it"
запиту дасть наступний результат .
Особливості застосування в реальних пошукових системах
У списку входжень слова в документи крім id документів зазвичай також зазначаються фактори (TF-IDF, бінарний фактор: «потрапило слово в заголовок або не потрапило», інші фактори), які використовуються при ранжируванні. Індекс може будуватися не за всіма словоформам, а по лемам (по канонічних форм слів).
Стоп-слова можна виключити і не будувати для них індекс, вважаючи що кожне з них зустрічається майже у всіх документах корпусу. Для прискорення обчислення перетинань використовують евристику skip-pointer-ів. При обробці запитів, що містять багато слів, використовують функцію кворуму, яка пропускає на наступну стадію ранжирування частина документів, в яких зустрілися не всі слова із запиту.
Див. Також
Посилання
- Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). Modern information retrieval (PDF). Редінг (Массачусетс): Addison-Wesley Longman. ISBN .
- Inverted files versus signature files for text indexing // ACM Transactions on Database Systems (TODS) : journal. — 1998. — P. 453—490. — DOI: .
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Invertovanij indeks angl inverted index struktura danih v yakij dlya kozhnogo slova kolekciyi dokumentiv u vidpovidnomu spisku pererahovani vsi dokumenti v kolekciyi v yakih vono zustrilosya Invertovanij indeks vikoristovuyetsya dlya poshuku za tekstami Ye dva varianti invertovanogo indeksu indeks yakij mistit lishe spisok dokumentiv dlya kozhnogo slova indeks dodatkovo vklyuchaye poziciyu slova v kozhnomu dokumentuZastosuvannyaOpishemo yak virishuyetsya zavdannya znahodzhennya dokumentiv v yakih zustrichayutsya vsi slova z poshukovogo zapitu Pri obrobci odnoslivnogo poshukovogo zapitu vidpovid vzhe ye v invertovanomu indeksi dostatno vzyati spisok vidpovidnij slovu iz zapitu Pri obrobci bagatoslivnoyi zapitu berutsya spiski vidpovidni kozhnomu zi sliv zapitu i peresichni Zazvichaj v poshukovih sistemah pislya pobudovi za dopomogoyu invertovanogo indeksu spisku dokumentiv sho mistyat slova iz zapitu jde ranzhuvannya dokumentiv zi spisku Invertovanij indeks ce najpopulyarnisha struktura danih yaka vikoristovuyetsya v informacijnomu poshuku PrikladNehaj u nas ye korpus z troh tekstiv T 0 displaystyle T 0 it is what it is T 1 displaystyle T 1 what is it ta T 2 displaystyle T 2 it is a banana todi invertovanij indeks bude viglyadati nastupnim chinom a 2 banana 2 is 0 1 2 it 0 1 2 what 0 1 Tut cifri poznachayut nomeri tekstiv u yakih zustrilosya vidpovidne slovo Todi vidpracyuvannya poshukovogo what is it zapitu dast nastupnij rezultat 0 1 0 1 2 0 1 2 0 1 displaystyle 0 1 cap 0 1 2 cap 0 1 2 0 1 Osoblivosti zastosuvannya v realnih poshukovih sistemahU spisku vhodzhen slova v dokumenti krim id dokumentiv zazvichaj takozh zaznachayutsya faktori TF IDF binarnij faktor potrapilo slovo v zagolovok abo ne potrapilo inshi faktori yaki vikoristovuyutsya pri ranzhiruvanni Indeks mozhe buduvatisya ne za vsima slovoformam a po lemam po kanonichnih form sliv Stop slova mozhna viklyuchiti i ne buduvati dlya nih indeks vvazhayuchi sho kozhne z nih zustrichayetsya majzhe u vsih dokumentah korpusu Dlya priskorennya obchislennya peretinan vikoristovuyut evristiku skip pointer iv Pri obrobci zapitiv sho mistyat bagato sliv vikoristovuyut funkciyu kvorumu yaka propuskaye na nastupnu stadiyu ranzhiruvannya chastina dokumentiv v yakih zustrilisya ne vsi slova iz zapitu Div TakozhPoshukovij indeksPosilannyaBaeza Yates Ricardo Ribeiro Neto Berthier 1999 Modern information retrieval PDF Reding Massachusets Addison Wesley Longman ISBN 0 201 39829 X Inverted files versus signature files for text indexing ACM Transactions on Database Systems TODS journal 1998 P 453 490 DOI 10 1145 296854 277632