Інформаці́йний по́шук (ІП) (англ. information retrieval) — наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет. Інформаційний пошук — велика міждисциплінарна галузь науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. Вперше виділив як міждисциплінарну галузь відомий угорський дослідник Золтон Жулен у 1989 році .
Автоматичні системи інформаційного пошуку використовують для зменшення так званого «інформаційного перевантаження». Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.
Об'єктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація.
Проблематика
З інформаційним пошуком змикаються проблеми:
- розсилки інформації (information routing);
- сортування інформації (information filtering);
- упорядкування (класифікація) інформації (information categorization);
- відбір інформації (information extraction).
Для інформаційного пошуку розробляють:
- алгоритми інформаційного пошуку (retrieval algorithms);
- підходи інформаційного пошуку(retrieval approaches);
- стратегії інформаційного пошуку (retrieval strategies).
Для його здійснення створюють:
- методи інформаційного пошуку (retrieval utilities);
- засоби інформаційного пошуку (information retrieval systems);
- комп'ютерні пошукові програми (search engines).
До проблем інформаційного пошуку належать питання:
- представлення даних, інформації, знань (data, information, knowledge);
- представлення інформації в сучасних інформаційних сховищах (representation of information);
- багатомовний інформаційний пошук (cross-language information retrieval);
- одночасний інформаційний пошук (parallel information retrieval);
- розподілений інформаційний пошук (distributed information retrieval);
- суспільний інформаційний пошук (social information retrieval)
Напрям інформаційний пошук відносять до проблем:
- застосовної (прикладної) лінгвістики (applied linguistics);
- обробки природної мови (natural language processing);
Завдання
Завданням інформаційного пошуку є знаходження відповідних (до пошукового запиту) інформаційних об'єктів, або документів серед доступного для пошуку матеріалу.
Завдання для інформаційного пошуку задається у вигляді інформаційного запиту (query), який може містити слова, фрази чи речення або комбінацію їх. Переважна більшість пошукових систем орієнтована на роботу з пошуковими термінами — словами або словосполученнями, які пошукова система розпізнає як одне ціле.
Для здійснення інформаційного пошуку потрібно мати збірку інформаційних об'єктів (бібліотека, комп'ютерні файли) і систему (алгоритм або програму) яка здійснює пошук. Для здійснення інформаційного пошуку користувач (людина або інформаційна система) формує інформаційний запит (information query). Результатом пошукової роботи є список документів який укладається згідно з певним принципом. Такий список називають впорядкованим (ranked list, ranked results).
Пошукова система переглядає всі доступні інформаційні одиниці (документи) зі збірки і відбирає документи відповідні до інформаційного запиту. Оскільки реальні пошукові системи знаходять не всі відповідні документи, говорять про точність пошукових систем (system accuracy). Результатом роботи пошукової системи є список відібраних документів (retrieved documents list), серед яких є відповідні до запиту документи (relevant documents). Для ідеальної пошукової системи список відібраних документів та відповідних документів повинні збігатися. В реальних пошукових системах в списках відібраних документів знаходяться і невідповідні до запиту документи. Тому говорять про ефективність пошукових систем.
Ефективність
Ефективність пошукових систем оцінюється двома параметрами: пошукова відповідність (precision) та пошукова якість (recall).
Пошукова відповідність визначає частку відповідних документів серед відібраних на запит. Пошукова відповідність визначає якість отриманого результату інформаційного пошуку. Пошукова якість визначає частку отриманих системою відповідних до запиту документів серед загального числа відповідних до запиту документів у збірці. Загальне число відповідних до запиту документів завжди є невідомим і може бути встановлене лише при повному перегляді збірки людиною.
Крім того роботу пошукових систем оцінюють швидкодією — часом, за який отримують список відповідних до запиту документів.
Інформаційний пошук — велика міждисциплінарна галузь науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики.
Автоматичні системи інформаційного пошуку використовують для зменшення так званого «інформаційного перевантаження». Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.
Стратегії інформаційного пошуку
Стратегії інформаційного пошуку визначають ступінь подібності документів, що розглядаються, до пошукового запиту. Ступінь подібності визначається згідно з робочою гіпотезою: чим частіше пошуковий термін зустрічається в документі, тим «відповіднішим» є цей документ до пошукового запиту.
Стратегії інформаційного пошуку розробляються не тільки для визначення відповідності, але і для вирішення проблем, які пов'язані з неоднозначністю мови — один і той самий термін може позначати різні концепти (ключ в механіці означає зовсім не те, що в шифруванні), один і той самий концепт може позначатись різними термінами (обласний центр Львівської області має назву Львів і Місто Лева).
Стратегія інформаційного пошуку це алгоритм, який, переглядаючи набір документів (Д1, …, Дn), встановлює їх відповідність до пошукового запиту (ПЗ). Оскільки пошуковий термін зустрічається в документах різну кількість раз, можна говорити про різну ступінь відповідності до пошукового запиту. Цей алгоритм обчислює коефіцієнт відповідності (similarity coefficient) (КВ) для кожного документу КВ(ПЗ, Дi), де 1 ≤ i ≤ n.
Існують такі стратегії інформаційного пошуку:
- з використанням векторно-просторового представлення (vector space model);
- пошук імовірності появи пошукового терміна в документі (probabilistic retrieval);
- з побудовою мовної моделі для кожного документа (language models);
- з побудовою мережі припущень, яку використовують для встановлення відповідності документу до пошукового запиту (inference network);
- з Булевим індексуванням, коли кожному пошуковому терміну присвоюється своя «вага», що потім враховується при побудові впорядкованих списків документів (Boolean indexing);
- з використанням не проявленого семантичного індексування (latent semantic indexing);
- з побудовою нейромереж (neural networks);
- з використанням продуктивних алгоритмів, коли початковий пошуковий запит «еволюційно» видозмінюється (genetic algorithms);
- з використанням нечітких множин, коли документу ставиться у відповідність нечітка множина (fuzzy set retrieval).
Інформаційний пошук за допомогою векторно-просторового представлення
Пошуковий запит та документи представляються у вигляді просторових векторів Пошукова система відбирає документи, просторові вектори яких подібні до просторового вектора пошукового запиту.
В основі векторно-просторового представлення документу лежить припущення, що зміст документу передається словами, що в ньому знаходяться. Просторово-векторне представлення будується для пошукового запиту і для кожного документу. Просторово-векторне представлення документу — це вектор у n-мірному просторі. N-мірний простір це простір, кожний вимір якого відповідає пошуковому терміну. Координати кінця вектора чисельно визначаються тим, скільки разів пошуковий термін зустрічається в документі. Тобто кожний компонент вектора відповідає числу появи відповідного терміну в документі.
Пошукова система обчислює коефіцієнт відповідності (КВ) просторово векторного представлення документу до просторово-векторного представлення пошукового запиту. Фактично пошукова система обчислює кут між цими векторами. Найвідповіднішими є документи, просторово-векторне представлення яких спрямоване туди ж куди і в представлення пошукового запиту.
Імовірнісний пошук
Коефіцієнт відповідності документа пошуковому запитові визначається на основі імовірності того, що документ є відповідним пошуковому запитові. Присутність чи відсутність пошукового терміну в документі використовують для визначення імовірності того, що документ відповідає інформаційному запитові.
Визначення імовірності базується на попередніх статистичних даних, про те, наскільки імовірно, що документ який містить пошуковий термін A, відповідатиме пошуковому запитові, що містить термін A. Припускаючи, що пошукові терміни в пошуковому запиті є незалежні, можна обчислювати таку імовірність для кожного пошукового терміну з пошукового запиту. Загальна імовірність відповідності документу обчислюється як добуток ймовірностей відповідності для кожного терміну.
Незалежність пошукових термінів в пошуковому запиті рідко спостерігається в дійсності, тому обчислення сумарної відповідності значно ускладнюється, що збільшує час інформаційного пошуку. Крім того, необхідно мати попередні дані про входження термінів у відповідні до запиту документи а також і у невідповідні до запиту документи.
Пошук з використанням мовних моделей
Мовні моделі використовують для передбачення появи того чи іншого слова у тексті.
В інформаційному пошуку використовують статистичні мовні моделі для передбачення чи з'явиться потрібне слово (пошуковий термін) в документі.
Для кожного документу зі збірки обчислюється імовірність появи в документі пошукових термінів. Згідно з цим документом упорядковуються у пошуковому списку. Ще один підхід пропонує побудову імовірнісної моделі пошуковго запиту. Тобто будується імовірнісна модель появи тих чи інших пошукових термінів у запиті Далі будується імовірнісна модель запиту як сукупності незалежних подій, де кожна подія — це поява того чи іншого терміну у пошуковому запиті. В цій моделі ми можемо врахувати навіть імовірності непояви певних термінів.
Алгоритми прийняття рішень
Алгоритми прийняття рішень використовують для визначення імовірності того, що документ буде відповідним до пошукового запиту. Застосовуються для доповнення до ймовірного пошуку, щоб отримати додаткові докази того, що документ може відповідати пошуковому запиту. Метод засновано на використанні відомих залежностей для побудови невідомих. Це дозволяє кардинально знизити обсяг обчислень, які потрібно виконати задля визначення ймовірності події.
Розширений булевий пошук
Звичайний Булевий пошук не має нічого спільного зі ступенем відповідності документу до пошукового запиту, і, відповідно, з упорядкуванням документів згідно з цією відповідністю. Документи або задовільняють інформаційний запит, або ні. Ті документи, що задовільняють булевий запит попадають у список по черзі. Ідея розширеного Булевого пошуку полягає у створенні можливостей для визначення ступеня відповідності документів пошуковому запитові. Це досягається з допомогою присвоєння ваги пошуковим термінам. Вага термінів враховується при побудові списку відповідності документів до інформаційного запиту.
Пошук з прихованим семантичним індексуванням
Поява термінів в документі представляється за допомогою матриці термін-документ. Матриця приводиться за допомогою розкладу за виродженими матрицями для того, щоб відділити «шум», так, що два семантично спільні документи розташовані поруч в багатомірному просторі.
Пошук з використанням нейромереж
Вузли нейронної мережі «активуються» пошуковим запитом. Сила кожного зв'язку нейронної мережі передається документу і її використовують для обчислення коефіцієнта відповідності документа до пошуковго запиту. Для цього зв'язкам присвоюється вага згідно з наперед визначеною відповідністю чи невідповідністю документів.
Пошук з використанням алгоритмів розвитку
Шляхом еволюції можна змінити початковий пошуковий запит. Початковий запит використовують з рівноправними термінами, або з термінами, що мають різну вагу. Згенерований пошуковий запит залишається, якщо він охоплює відомі відповідні до початкового запиту документи, якщо ж ні — відкидається.
Пошук з використанням нечітких множин
Документ перетворюється на нечітку множину (це множина, що містить не тільки сам елемент але і число, що показує ступінь приналежності елемента до множини). Далі для кожного документу з проведеного попередньо Булевого пошуку додається інформація отримана з операцій об'єднання, перетину, комплементарності нечітких множин, яка говорить про ступінь відповідності кожного документу до пошукового запиту. Ступінь відповідності використовують як коефіцієнт відповідності.
Вимоги до результатів пошуку
Результати інформаційного пошуку повинні відповідати таким вимогам:
- релевантність (від англ. Relevant) — стосується результатів роботи пошукової системи і експертної системи; ступінь відповідності запиту і знайденого, тобто доречність результату. Одне з найближчих до поняття «релевантності» — «адекватність», тобто оцінка ступеня відповідності, практичної та соціальної застосовності результату варіантів вирішення завдання.
- пертінентність (від англ. Pertinent) — співвідношення обсягу корисної інформації до загального обсягу отриманої інформації.
Див. також
Примітки
- G. Salton, A. Wong, and C. S. Yang (1975), A vector space model for automatic indexing «Communications of the ACM», vol. 18, nr. 11, pages 613—620. «(The article in which the vector space model was first presented)»
- Maron, M. E., & Kuhns, J. L. (1960). On relevance, probabilistic indexing and information retrieval. Journal of the ACM, 7(3), 216—244.
- Ponte, Jay M., and Croft, W. Bruce. A language modeling approach to information retrieval. In Proc. SIGIR, 1998.- pp. 275—281. ACM Press.
- Greiff Warren R., Croft B., Turtle H. PIC matrices: a computationally tractable class of probabilistic query operators. ACM Transactions on Information Systems (TOIS) Volume 17 , Issue 4 (October 1999) p. 367—405
- Fox Edward A., Salton G., Wu H. Extended Boolean information retrieval. Commun. of the ACM, Volume 26 , Issue 11 (November 1983) р. 1022—1036
- Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by latent semantic analysis. Journal of the American Society for Information Science (1990)
- Kwok K. L. A neural network for probabilistic information retrieval. ACM SIGIR Forum, Volume 23 , (червень 1989)
- Hsinchun Chen Machine learning for information retrieval: Neural networks, symbolic learning, and genetic algorithms. Journal of the American Society for Information Science. Volume 46 Issue 3, ст. 194—216
Література
- F. Crestani and G. Pasi. Soft Information Retrieval: Applications of Fuzzy Set Theory and Neural Networks. in «Neuro-fuzzy Techniques for Intelligent Information Systems», N.Kasabov and Robert Kozma Editors, Physica-Verlag, Springer-Verlag Group , 287—313, 1999.
- Ланде Д. В., Снарский А. А., Безсуднов И. В. Интернетика: Навигация в сложных сетях: модели и алгоритмы. — M.: Либроком (Editorial URSS), 2009. — 264 с. .
- Schütze, Hinrich; Christopher D. Manning; Raghavan, Prabhakar (2008). . Cambridge, UK: Cambridge University Press. ISBN . Архів оригіналу за 12 листопада 2018.
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Informaci jnij po shuk IP angl information retrieval nauka pro poshuk nestrukturovanoyi dokumentalnoyi informaciyi Osoblivo ce vidnositsya do poshuku informaciyi v dokumentah poshuk samih dokumentiv dobuttya metadanih z dokumentiv poshuku tekstu zobrazhen video ta zvuku u lokalnih relyacijnih bazah danih u gipertekstovih bazah danih takih yak Internet ta lokalni intranet Informacijnij poshuk velika mizhdisciplinarna galuz nauki yaka stoyit na peretini kognitivnoyi psihologiyi informatiki informacijnogo dizajnu lingvistiki semiotiki bibliotechnoyi spravi ta statistiki Vpershe vidiliv yak mizhdisciplinarnu galuz vidomij ugorskij doslidnik Zolton Zhulen u 1989 roci Avtomatichni sistemi informacijnogo poshuku vikoristovuyut dlya zmenshennya tak zvanogo informacijnogo perevantazhennya Bagato universitetiv ta publichnih bibliotek vikoristovuyut sistemi IP dlya polegshennya dostupu do knizhok zhurnaliv ta inshih dokumentiv Najvidomishim prikladom sistem IP mozhna nazvati poshukovi sistemi v Interneti Ob yektom informacijnogo poshuku ye tekstova informaciya zobrazhennya audio video informaciya ProblematikaZ informacijnim poshukom zmikayutsya problemi rozsilki informaciyi information routing sortuvannya informaciyi information filtering uporyadkuvannya klasifikaciya informaciyi information categorization vidbir informaciyi information extraction Dlya informacijnogo poshuku rozroblyayut algoritmi informacijnogo poshuku retrieval algorithms pidhodi informacijnogo poshuku retrieval approaches strategiyi informacijnogo poshuku retrieval strategies Dlya jogo zdijsnennya stvoryuyut metodi informacijnogo poshuku retrieval utilities zasobi informacijnogo poshuku information retrieval systems komp yuterni poshukovi programi search engines Do problem informacijnogo poshuku nalezhat pitannya predstavlennya danih informaciyi znan data information knowledge predstavlennya informaciyi v suchasnih informacijnih shovishah representation of information bagatomovnij informacijnij poshuk cross language information retrieval odnochasnij informacijnij poshuk parallel information retrieval rozpodilenij informacijnij poshuk distributed information retrieval suspilnij informacijnij poshuk social information retrieval Napryam informacijnij poshuk vidnosyat do problem zastosovnoyi prikladnoyi lingvistiki applied linguistics obrobki prirodnoyi movi natural language processing ZavdannyaZavdannyam informacijnogo poshuku ye znahodzhennya vidpovidnih do poshukovogo zapitu informacijnih ob yektiv abo dokumentiv sered dostupnogo dlya poshuku materialu Zavdannya dlya informacijnogo poshuku zadayetsya u viglyadi informacijnogo zapitu query yakij mozhe mistiti slova frazi chi rechennya abo kombinaciyu yih Perevazhna bilshist poshukovih sistem oriyentovana na robotu z poshukovimi terminami slovami abo slovospoluchennyami yaki poshukova sistema rozpiznaye yak odne cile Dlya zdijsnennya informacijnogo poshuku potribno mati zbirku informacijnih ob yektiv biblioteka komp yuterni fajli i sistemu algoritm abo programu yaka zdijsnyuye poshuk Dlya zdijsnennya informacijnogo poshuku koristuvach lyudina abo informacijna sistema formuye informacijnij zapit information query Rezultatom poshukovoyi roboti ye spisok dokumentiv yakij ukladayetsya zgidno z pevnim principom Takij spisok nazivayut vporyadkovanim ranked list ranked results Poshukova sistema pereglyadaye vsi dostupni informacijni odinici dokumenti zi zbirki i vidbiraye dokumenti vidpovidni do informacijnogo zapitu Oskilki realni poshukovi sistemi znahodyat ne vsi vidpovidni dokumenti govoryat pro tochnist poshukovih sistem system accuracy Rezultatom roboti poshukovoyi sistemi ye spisok vidibranih dokumentiv retrieved documents list sered yakih ye vidpovidni do zapitu dokumenti relevant documents Dlya idealnoyi poshukovoyi sistemi spisok vidibranih dokumentiv ta vidpovidnih dokumentiv povinni zbigatisya V realnih poshukovih sistemah v spiskah vidibranih dokumentiv znahodyatsya i nevidpovidni do zapitu dokumenti Tomu govoryat pro efektivnist poshukovih sistem EfektivnistEfektivnist poshukovih sistem ocinyuyetsya dvoma parametrami poshukova vidpovidnist precision ta poshukova yakist recall Poshukova vidpovidnist viznachaye chastku vidpovidnih dokumentiv sered vidibranih na zapit Poshukova vidpovidnist viznachaye yakist otrimanogo rezultatu informacijnogo poshuku Poshukova yakist viznachaye chastku otrimanih sistemoyu vidpovidnih do zapitu dokumentiv sered zagalnogo chisla vidpovidnih do zapitu dokumentiv u zbirci Zagalne chislo vidpovidnih do zapitu dokumentiv zavzhdi ye nevidomim i mozhe buti vstanovlene lishe pri povnomu pereglyadi zbirki lyudinoyu Krim togo robotu poshukovih sistem ocinyuyut shvidkodiyeyu chasom za yakij otrimuyut spisok vidpovidnih do zapitu dokumentiv Informacijnij poshuk velika mizhdisciplinarna galuz nauki yaka stoyit na peretini kognitivnoyi psihologiyi informatiki informacijnogo dizajnu lingvistiki semiotiki bibliotechnoyi spravi ta statistiki Avtomatichni sistemi informacijnogo poshuku vikoristovuyut dlya zmenshennya tak zvanogo informacijnogo perevantazhennya Bagato universitetiv ta publichnih bibliotek vikoristovuyut sistemi IP dlya polegshennya dostupu do knizhok zhurnaliv ta inshih dokumentiv Najvidomishim prikladom sistem IP mozhna nazvati poshukovi sistemi v Interneti Strategiyi informacijnogo poshukuStrategiyi informacijnogo poshuku viznachayut stupin podibnosti dokumentiv sho rozglyadayutsya do poshukovogo zapitu Stupin podibnosti viznachayetsya zgidno z robochoyu gipotezoyu chim chastishe poshukovij termin zustrichayetsya v dokumenti tim vidpovidnishim ye cej dokument do poshukovogo zapitu Strategiyi informacijnogo poshuku rozroblyayutsya ne tilki dlya viznachennya vidpovidnosti ale i dlya virishennya problem yaki pov yazani z neodnoznachnistyu movi odin i toj samij termin mozhe poznachati rizni koncepti klyuch v mehanici oznachaye zovsim ne te sho v shifruvanni odin i toj samij koncept mozhe poznachatis riznimi terminami oblasnij centr Lvivskoyi oblasti maye nazvu Lviv i Misto Leva Strategiya informacijnogo poshuku ce algoritm yakij pereglyadayuchi nabir dokumentiv D1 Dn vstanovlyuye yih vidpovidnist do poshukovogo zapitu PZ Oskilki poshukovij termin zustrichayetsya v dokumentah riznu kilkist raz mozhna govoriti pro riznu stupin vidpovidnosti do poshukovogo zapitu Cej algoritm obchislyuye koeficiyent vidpovidnosti similarity coefficient KV dlya kozhnogo dokumentu KV PZ Di de 1 i n Isnuyut taki strategiyi informacijnogo poshuku z vikoristannyam vektorno prostorovogo predstavlennya vector space model poshuk imovirnosti poyavi poshukovogo termina v dokumenti probabilistic retrieval z pobudovoyu movnoyi modeli dlya kozhnogo dokumenta language models z pobudovoyu merezhi pripushen yaku vikoristovuyut dlya vstanovlennya vidpovidnosti dokumentu do poshukovogo zapitu inference network z Bulevim indeksuvannyam koli kozhnomu poshukovomu terminu prisvoyuyetsya svoya vaga sho potim vrahovuyetsya pri pobudovi vporyadkovanih spiskiv dokumentiv Boolean indexing z vikoristannyam ne proyavlenogo semantichnogo indeksuvannya latent semantic indexing z pobudovoyu nejromerezh neural networks z vikoristannyam produktivnih algoritmiv koli pochatkovij poshukovij zapit evolyucijno vidozminyuyetsya genetic algorithms z vikoristannyam nechitkih mnozhin koli dokumentu stavitsya u vidpovidnist nechitka mnozhina fuzzy set retrieval Informacijnij poshuk za dopomogoyu vektorno prostorovogo predstavlennya Poshukovij zapit ta dokumenti predstavlyayutsya u viglyadi prostorovih vektoriv Poshukova sistema vidbiraye dokumenti prostorovi vektori yakih podibni do prostorovogo vektora poshukovogo zapitu V osnovi vektorno prostorovogo predstavlennya dokumentu lezhit pripushennya sho zmist dokumentu peredayetsya slovami sho v nomu znahodyatsya Prostorovo vektorne predstavlennya buduyetsya dlya poshukovogo zapitu i dlya kozhnogo dokumentu Prostorovo vektorne predstavlennya dokumentu ce vektor u n mirnomu prostori N mirnij prostir ce prostir kozhnij vimir yakogo vidpovidaye poshukovomu terminu Koordinati kincya vektora chiselno viznachayutsya tim skilki raziv poshukovij termin zustrichayetsya v dokumenti Tobto kozhnij komponent vektora vidpovidaye chislu poyavi vidpovidnogo terminu v dokumenti Poshukova sistema obchislyuye koeficiyent vidpovidnosti KV prostorovo vektornogo predstavlennya dokumentu do prostorovo vektornogo predstavlennya poshukovogo zapitu Faktichno poshukova sistema obchislyuye kut mizh cimi vektorami Najvidpovidnishimi ye dokumenti prostorovo vektorne predstavlennya yakih spryamovane tudi zh kudi i v predstavlennya poshukovogo zapitu Imovirnisnij poshuk Koeficiyent vidpovidnosti dokumenta poshukovomu zapitovi viznachayetsya na osnovi imovirnosti togo sho dokument ye vidpovidnim poshukovomu zapitovi Prisutnist chi vidsutnist poshukovogo terminu v dokumenti vikoristovuyut dlya viznachennya imovirnosti togo sho dokument vidpovidaye informacijnomu zapitovi Viznachennya imovirnosti bazuyetsya na poperednih statistichnih danih pro te naskilki imovirno sho dokument yakij mistit poshukovij termin A vidpovidatime poshukovomu zapitovi sho mistit termin A Pripuskayuchi sho poshukovi termini v poshukovomu zapiti ye nezalezhni mozhna obchislyuvati taku imovirnist dlya kozhnogo poshukovogo terminu z poshukovogo zapitu Zagalna imovirnist vidpovidnosti dokumentu obchislyuyetsya yak dobutok jmovirnostej vidpovidnosti dlya kozhnogo terminu Nezalezhnist poshukovih terminiv v poshukovomu zapiti ridko sposterigayetsya v dijsnosti tomu obchislennya sumarnoyi vidpovidnosti znachno uskladnyuyetsya sho zbilshuye chas informacijnogo poshuku Krim togo neobhidno mati poperedni dani pro vhodzhennya terminiv u vidpovidni do zapitu dokumenti a takozh i u nevidpovidni do zapitu dokumenti Poshuk z vikoristannyam movnih modelej Movni modeli vikoristovuyut dlya peredbachennya poyavi togo chi inshogo slova u teksti V informacijnomu poshuku vikoristovuyut statistichni movni modeli dlya peredbachennya chi z yavitsya potribne slovo poshukovij termin v dokumenti Dlya kozhnogo dokumentu zi zbirki obchislyuyetsya imovirnist poyavi v dokumenti poshukovih terminiv Zgidno z cim dokumentom uporyadkovuyutsya u poshukovomu spisku She odin pidhid proponuye pobudovu imovirnisnoyi modeli poshukovgo zapitu Tobto buduyetsya imovirnisna model poyavi tih chi inshih poshukovih terminiv u zapiti Dali buduyetsya imovirnisna model zapitu yak sukupnosti nezalezhnih podij de kozhna podiya ce poyava togo chi inshogo terminu u poshukovomu zapiti V cij modeli mi mozhemo vrahuvati navit imovirnosti nepoyavi pevnih terminiv Algoritmi prijnyattya rishen Algoritmi prijnyattya rishen vikoristovuyut dlya viznachennya imovirnosti togo sho dokument bude vidpovidnim do poshukovogo zapitu Zastosovuyutsya dlya dopovnennya do jmovirnogo poshuku shob otrimati dodatkovi dokazi togo sho dokument mozhe vidpovidati poshukovomu zapitu Metod zasnovano na vikoristanni vidomih zalezhnostej dlya pobudovi nevidomih Ce dozvolyaye kardinalno zniziti obsyag obchislen yaki potribno vikonati zadlya viznachennya jmovirnosti podiyi Rozshirenij bulevij poshuk Zvichajnij Bulevij poshuk ne maye nichogo spilnogo zi stupenem vidpovidnosti dokumentu do poshukovogo zapitu i vidpovidno z uporyadkuvannyam dokumentiv zgidno z ciyeyu vidpovidnistyu Dokumenti abo zadovilnyayut informacijnij zapit abo ni Ti dokumenti sho zadovilnyayut bulevij zapit popadayut u spisok po cherzi Ideya rozshirenogo Bulevogo poshuku polyagaye u stvorenni mozhlivostej dlya viznachennya stupenya vidpovidnosti dokumentiv poshukovomu zapitovi Ce dosyagayetsya z dopomogoyu prisvoyennya vagi poshukovim terminam Vaga terminiv vrahovuyetsya pri pobudovi spisku vidpovidnosti dokumentiv do informacijnogo zapitu Poshuk z prihovanim semantichnim indeksuvannyam Poyava terminiv v dokumenti predstavlyayetsya za dopomogoyu matrici termin dokument Matricya privoditsya za dopomogoyu rozkladu za virodzhenimi matricyami dlya togo shob viddiliti shum tak sho dva semantichno spilni dokumenti roztashovani poruch v bagatomirnomu prostori Poshuk z vikoristannyam nejromerezh Vuzli nejronnoyi merezhi aktivuyutsya poshukovim zapitom Sila kozhnogo zv yazku nejronnoyi merezhi peredayetsya dokumentu i yiyi vikoristovuyut dlya obchislennya koeficiyenta vidpovidnosti dokumenta do poshukovgo zapitu Dlya cogo zv yazkam prisvoyuyetsya vaga zgidno z napered viznachenoyu vidpovidnistyu chi nevidpovidnistyu dokumentiv Poshuk z vikoristannyam algoritmiv rozvitku Shlyahom evolyuciyi mozhna zminiti pochatkovij poshukovij zapit Pochatkovij zapit vikoristovuyut z rivnopravnimi terminami abo z terminami sho mayut riznu vagu Zgenerovanij poshukovij zapit zalishayetsya yaksho vin ohoplyuye vidomi vidpovidni do pochatkovogo zapitu dokumenti yaksho zh ni vidkidayetsya Poshuk z vikoristannyam nechitkih mnozhin Dokument peretvoryuyetsya na nechitku mnozhinu ce mnozhina sho mistit ne tilki sam element ale i chislo sho pokazuye stupin prinalezhnosti elementa do mnozhini Dali dlya kozhnogo dokumentu z provedenogo poperedno Bulevogo poshuku dodayetsya informaciya otrimana z operacij ob yednannya peretinu komplementarnosti nechitkih mnozhin yaka govorit pro stupin vidpovidnosti kozhnogo dokumentu do poshukovogo zapitu Stupin vidpovidnosti vikoristovuyut yak koeficiyent vidpovidnosti Vimogi do rezultativ poshukuRezultati informacijnogo poshuku povinni vidpovidati takim vimogam relevantnist vid angl Relevant stosuyetsya rezultativ roboti poshukovoyi sistemi i ekspertnoyi sistemi stupin vidpovidnosti zapitu i znajdenogo tobto dorechnist rezultatu Odne z najblizhchih do ponyattya relevantnosti adekvatnist tobto ocinka stupenya vidpovidnosti praktichnoyi ta socialnoyi zastosovnosti rezultatu variantiv virishennya zavdannya pertinentnist vid angl Pertinent spivvidnoshennya obsyagu korisnoyi informaciyi do zagalnogo obsyagu otrimanoyi informaciyi Div takozhPoshukova sistema Poshukovij rushij Informacijno poshukova mova Deskriptor Rozvidka socialnih mediaPrimitkiG Salton A Wong and C S Yang 1975 A vector space model for automatic indexing Communications of the ACM vol 18 nr 11 pages 613 620 The article in which the vector space model was first presented Maron M E amp Kuhns J L 1960 On relevance probabilistic indexing and information retrieval Journal of the ACM 7 3 216 244 Ponte Jay M and Croft W Bruce A language modeling approach to information retrieval In Proc SIGIR 1998 pp 275 281 ACM Press Greiff Warren R Croft B Turtle H PIC matrices a computationally tractable class of probabilistic query operators ACM Transactions on Information Systems TOIS Volume 17 Issue 4 October 1999 p 367 405 Fox Edward A Salton G Wu H Extended Boolean information retrieval Commun of the ACM Volume 26 Issue 11 November 1983 r 1022 1036 Scott Deerwester Susan T Dumais George W Furnas Thomas K Landauer Richard Harshman Indexing by latent semantic analysis Journal of the American Society for Information Science 1990 Kwok K L A neural network for probabilistic information retrieval ACM SIGIR Forum Volume 23 cherven 1989 Hsinchun Chen Machine learning for information retrieval Neural networks symbolic learning and genetic algorithms Journal of the American Society for Information Science Volume 46 Issue 3 st 194 216LiteraturaF Crestani and G Pasi Soft Information Retrieval Applications of Fuzzy Set Theory and Neural Networks in Neuro fuzzy Techniques for Intelligent Information Systems N Kasabov and Robert Kozma Editors Physica Verlag Springer Verlag Group 287 313 1999 Lande D V Snarskij A A Bezsudnov I V Internetika Navigaciya v slozhnyh setyah modeli i algoritmy M Librokom Editorial URSS 2009 264 s ISBN 978 5 397 00497 8 Schutze Hinrich Christopher D Manning Raghavan Prabhakar 2008 Cambridge UK Cambridge University Press ISBN 0 521 86571 9 Arhiv originalu za 12 listopada 2018