Стоп-слова або шумові слова — термін з теорії пошуку інформації за ключовими словами. Це слова, які не несуть смислового навантаження, тому їх користь та роль для пошуку не суттєва.
Класифікація
Стоп-слова діляться на:
- загальні
- залежні
До загальних можна віднести прийменники, суфікси, дієприкметники, вигуки, цифри тощо. Загальні шумові слова завжди виключаються з пошукового запиту (за винятком пошуку за строгою відповідністю пошукової фрази), так само вони ігноруються при побудові інвертованого індексу. Вважається, що кожне з загальних стоп-слів є майже в усіх документах колекції.
До типових загальних шумових слів належать:
- цифри: 1, 2, 3, 4, 5, 6, 7, 8, 9, 0 (один, два, три, чотири, п'ять, шість, сім, вісім, дев'ять, нуль).
- окремо розташовані знаки пунктуації: . , = + /! "; :%? * ()
- окремо розташовані букви алфавіту: а, б, в, г, ґ, д, е, є, ж, з, и, і, ї, й, к, л, м, н, о, п, р, с, т, у, ф, х, ц, ч, ш, щ, ь, ю,я
- займенники, дієприкметники, прийменники, вигуки, суфікси і поєднання букв: без, більш, б, був, була, були, було, бути (окрім фразеологічних зворотів, таких як «бути чи не бути»), вам, вас, адже, весь, вздовж, замість, поза, вниз, внизу, всередині, під, навколо, от, все, завжди, все, всіх, ви, де, да, давай, давати, навіть, для, до i т. д.
- слова, які часто зустрічаються на web-сайтах: Інтернет, сайт, питання, відповіді, комп'ютери, прайс, замовлення та інші.
- нецензурна мова
Залежні стоп-слова залежать від пошукової фрази. Ідея полягає в тому, щоб по-різному враховувати відсутність звичайних слів із запиту і залежних стоп-слів із запиту в знайденому документі. Залежні стоп-слова відрізняються тим, що в пошуковому запиті їх слід враховувати тільки при наявності в шуканому документі значущих ключових слів.
Приклади
Наприклад, при пошуку за запитом Іван Петрович Котляревський, є сенс відобразити всі документи, які містять:
- Котляревський, Іван, Петрович
- Котляревський, Іван
- Котляревський, Петрович
- Котляревський
Але навряд чи є сенс відображати документи, що містять тільки:
- Іван, Петрович
- Іван
- Петрович
Тобто в даному запиті шумовими словами є Іван і Петрович.
Див. також
Література
- Гращенко Л. А. Про модельний стоп-словник // Ізвестія Академії наук Республіки Таджикистан. Відділення фізико-математичних, хімічних, геологічних та технічних наук — 2013. — № 1 (150). — С. 40-46.
Посилання
- Шумові слова в українському аналізаторі пошукової системи Lucene
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Stop slova abo shumovi slova termin z teoriyi poshuku informaciyi za klyuchovimi slovami Ce slova yaki ne nesut smislovogo navantazhennya tomu yih korist ta rol dlya poshuku ne suttyeva KlasifikaciyaStop slova dilyatsya na zagalni zalezhni Do zagalnih mozhna vidnesti prijmenniki sufiksi diyeprikmetniki viguki cifri tosho Zagalni shumovi slova zavzhdi viklyuchayutsya z poshukovogo zapitu za vinyatkom poshuku za strogoyu vidpovidnistyu poshukovoyi frazi tak samo voni ignoruyutsya pri pobudovi invertovanogo indeksu Vvazhayetsya sho kozhne z zagalnih stop sliv ye majzhe v usih dokumentah kolekciyi Do tipovih zagalnih shumovih sliv nalezhat cifri 1 2 3 4 5 6 7 8 9 0 odin dva tri chotiri p yat shist sim visim dev yat nul okremo roztashovani znaki punktuaciyi okremo roztashovani bukvi alfavitu a b v g g d e ye zh z i i yi j k l m n o p r s t u f h c ch sh sh yu ya zajmenniki diyeprikmetniki prijmenniki viguki sufiksi i poyednannya bukv bez bilsh b buv bula buli bulo buti okrim frazeologichnih zvorotiv takih yak buti chi ne buti vam vas adzhe ves vzdovzh zamist poza vniz vnizu vseredini pid navkolo ot vse zavzhdi vse vsih vi de da davaj davati navit dlya do i t d slova yaki chasto zustrichayutsya na web sajtah Internet sajt pitannya vidpovidi komp yuteri prajs zamovlennya ta inshi necenzurna mova Zalezhni stop slova zalezhat vid poshukovoyi frazi Ideya polyagaye v tomu shob po riznomu vrahovuvati vidsutnist zvichajnih sliv iz zapitu i zalezhnih stop sliv iz zapitu v znajdenomu dokumenti Zalezhni stop slova vidriznyayutsya tim sho v poshukovomu zapiti yih slid vrahovuvati tilki pri nayavnosti v shukanomu dokumenti znachushih klyuchovih sliv PrikladiNapriklad pri poshuku za zapitom Ivan Petrovich Kotlyarevskij ye sens vidobraziti vsi dokumenti yaki mistyat Kotlyarevskij Ivan Petrovich Kotlyarevskij Ivan Kotlyarevskij Petrovich Kotlyarevskij Ale navryad chi ye sens vidobrazhati dokumenti sho mistyat tilki Ivan Petrovich Ivan Petrovich Tobto v danomu zapiti shumovimi slovami ye Ivan i Petrovich Div takozhKlyuchove slovo Indeksaciya Hmarka tegivLiteraturaGrashenko L A Pro modelnij stop slovnik Izvestiya Akademiyi nauk Respubliki Tadzhikistan Viddilennya fiziko matematichnih himichnih geologichnih ta tehnichnih nauk 2013 1 150 S 40 46 PosilannyaShumovi slova v ukrayinskomu analizatori poshukovoyi sistemi Lucene