Пошуко́вий і́ндекс — структура даних, яка містить інформацію про документи та використовується в пошукових системах. Індексування, що здійснюється пошуковою машиною, — процес збору, сортування та зберігання даних з метою забезпечення швидкого та точного пошуку інформації. Створення індексу включає міждисциплінарні поняття з лінгвістики, когнітивної психології, математики, інформатики та фізики. Вебіндексуванням називають процес індексування в контексті пошукових машин, розроблених для пошуку вебсторінок в Інтернеті.
Популярні пошукові машини зосереджуються на повнотекстовій індексації документів, написаних природною мовою[⇨]. Мультимедійні документи, такі як відео та аудіо і графіка, також можуть брати участь у пошуку.
Метапошукові машини використовують індекси інших пошукових сервісів і не зберігають локальний індекс, тоді як пошукові машини, засновані на кеш сторінках, довго зберігають як індекс, так і текстові корпуси. На відміну від повнотекстових індексів, частково-текстові сервіси обмежують глибину індексації, щоб зменшити розмір індексу. Великі сервіси, зазвичай, виконують індексацію в заданому часовому інтервалі через необхідність часу і витрат на обробку, у той час як пошукові машини, засновані на агентах, будують індекс у масштабі реального часу.
Індексація
Мета використання індексу — підвищення швидкості пошуку релевантних документів за пошуковим запитом. Без індексу пошукова машина повинна була б сканувати кожен документ в корпусі, що вимагало б великої кількості часу і обчислювальної потужності. Наприклад, у той час, як індекс 10 000 документів може бути опитано в межах мілісекунд, послідовний перегляд кожного слова в 10 000 великих документів міг би зайняти години. Додаткова пам'ять, що виділяється для зберігання індексу, і збільшення часу, необхідного для поновлення індексу, компенсується зменшенням часу на пошук інформації.
Фактори, що впливають на проектування пошукових систем
При розробці пошукової системи необхідно враховувати такі фактори:
- Фактори злиття
- Як дані входять до індексу? Як слова та підлеглі функції додаються до індексу під час текстового корпусного обходу? І чи можуть кілька пошукових роботів працювати асинхронно? Пошуковий робот повинен спочатку перевірити, оновлює він старий зміст або додає новий. Злиття індексу[⇨] пошукової системи подібно SQL Merge та іншим алгоритмам злиття[5].
- Методи зберігання
- Як зберігати індексовані дані? Тобто визначають вид інформації, що зберігається: стиснутий або відфільтрований.
- Розмір індексу
- Скільки необхідно пам'яті комп'ютера, аби підтримувати індекс.
- Швидкість пошуку
- Як швидко можна знайти слово в інвертованому індексі. Важливим для інформатики є порівняння швидкості знаходження запису в структурі даних та швидкості оновлення/видалення індексу.
- Зберігання
- Як зберігається індекс протягом тривалого часу.
- Відмовостійкість
- Для пошукової служби важливо бути надійною. Запитання відмовостійкості містять проблему ушкодження індексу, визначаючи, чи можна окремо розглядати некоректні дані, пов'язані з поганими апаратними засобами, секціюванням та схемами на основі геш-функцій та композитного секціювання, а також реплікації.
Індексні структури даних
Архітектура пошукової системи розрізняється за способами індексування і за методами зберігання індексів, задовольняючи чинники[⇨]. Індекси бувають наступних типів:
- Суфіксне дерево
- Образно структуроване як дерево, підтримує лінійний час пошуку. Побудовано на зберіганні суфіксів слів. Дерева підтримують розширене гешування, яке важливо для індексації пошукової системи. Використовується для пошуку за шаблоном в послідовностях ДНК та кластеризації. Основним недоліком є те, що зберігання слова в дереві може потребувати простір більший, ніж необхідно для зберігання самого слова. Альтернативний запис — [ru]. Вважається, що він вимагає менше віртуальної пам'яті та підтримує блочно-сортувальний стиск даних.
- Інвертований індекс
- Сховище списку входжень кожного критерію пошуку, зазвичай у формі геш-таблиць або бінарного дерева.
- Індекс цитування
- Сховище цитат або гіперпосилань між документами для підтримки аналізу цитування, предмет бібліометрії.
- N-грами
- Сховище послідовностей довжин, даних для підтримки інших типів пошуку або аналізу тексту.
- Матриця термів документа
- Використовується в латентно-семантичному аналізі (ЛСА), зберігає входження слів у документах двовимірної розрідженої матриці.
Проблеми паралельного індексування
Однією з основних задач при проектуванні пошукових систем є управління послідовними обчислювальними процесами. Існують ситуації, у яких можливе створення стану гонитви та когерентних відмов. Наприклад, новий документ доданий до корпусу, і індекс повинен бути оновленим, але в той же час індекс повинен продовжувати відповідати на пошукові запити. Це колізія між двома конкуруючими завданнями. Вважається, що автори є виробниками інформації, а пошуковий робот — споживачем цієї інформації, який захоплює текст та зберігає його в кеші (або корпусі). Прямий індекс є споживачем інформації, виробленої корпусом, а інвертований індекс — споживачем інформації, виробленої прямим індексом. Це зазвичай згадується як модель виробника-споживача. Індексатор є виробником доступної для пошуку інформації, а користувачі, які її шукають, — споживачами. Проблема посилюється при розподіленому зберіганні та розподіленій обробці. Щоб масштабувати великі обсяги індексованої інформації, пошукова система може ґрунтуватися на архітектурі розподілених обчислень, при цьому пошукова система складається з декількох машин, що працюють узгоджено. Це збільшує ймовірність нелогічності та робить складнішою підтримку повністю синхронізованої, розподіленої, паралельної архітектури.
Прямий індекс
Прямий індекс зберігає список слів для кожного документа. Нижче наведена спрощена форма прямого індексу:
Документ | Слова |
---|---|
Документ 1 | Любіть, Україну, у, сні, й, наяву |
Документ 2 | вишневу, свою, Україну |
Документ 3 | красу, її, вічно, живу, і, нову |
Документ 4 | і, мову, її, солов'їну |
Необхідність розробки прямого індексу пояснюється тим, що найкраще одразу зберігати слова за документами, оскільки їх надалі аналізують для створення пошукового індексу. Формування прямого індексу включає асинхронну системну обробку, яка частково обходить оновлення інвертованого індексу. Прямий індекс сортують, щоб перетворити в інвертований. Прямий індекс власне являє собою список пар, які складаються з документів та слів, відсортованих за документами. Перетворення прямого індексу у інвертований є лише питанням сортування пар за словами. У цьому плані інвертований індекс — відсортований за словами прямий індекс.
Інвертований індекс
Багато пошукових систем використовують інвертований індекс при оцінюванні пошукового запиту, щоб швидко визначити місце розташування документів, що містять слова запиту, а потім ранжувати ці документи по релевантності. Оскільки інвертований індекс зберігає список документів, що містять кожне слово, пошукова система може використовувати прямий доступ, аби знайти документи, пов'язані з кожним словом в запиті, і швидко отримати їх. Нижче наведено спрощене уявлення інвертованого індексу:
Слово | Документи |
---|---|
вічно | Документ 3 |
вишневу | Документ 2 |
живу | Документ 3 |
і | Документ 3,Документ 4 |
її | Документ 3, Документ 4 |
й | Документ 1 |
красу | Документ 3 |
любіть | Документ 1 |
мову | Документ 4 |
наяву | Документ 1 |
нову | Документ 3 |
свою | Документ 2 |
сні | Документ 1 |
солов'їну | Документ 4 |
у | Документ 1 |
Україну | Документ 1,Документ 2 |
Інвертований індекс може лише визначити, чи існує слово в межах конкретного документа, оскільки не зберігає жодної інформації щодо частоти та позиції слова, і тому його вважають логічним індексом. Він визначає, які документи відповідають запиту, але не оцінює їх. У деяких випадках індекс містить додаткову інформацію, таку як частота кожного слова в кожному документі або позиція слова в документі. Інформація про позицію слова дозволяє пошуковому алгоритму ідентифікувати близькість слова, щоб підтримувати пошук фраз. Частота може використовуватися, щоб допомогти в ранжуванні документів за запитом. Такі теми в центрі уваги досліджень інформаційного пошуку.
Інвертований індекс представлений розрідженою матрицею, оскільки не всі слова присутні в кожному документі. Індекс подібний матриці термів документа, що використовується в ЛСА. Інвертований індекс можна вважати формою геш-таблиці. В деяких випадках індекс представлений у формі двійкового дерева, яка вимагає додаткової пам'яті, але може зменшити час пошуку. У великих індексах архітектура, зазвичай, представлена розподіленою геш-таблицею.
Злиття індексу
Інвертований індекс заповнюється шляхом злиття або відновлення. Архітектура може бути спроектована так, щоб підтримувати інкрементну індексацію, у якій злиття визначає документ або документи, які будуть додані або оновлені, а потім аналізує кожний документ в слова. Для технічної точності, злиття об'єднує недавно індексовані документи, які зазвичай перебувають у віртуальній пам'яті, з індексним кешем, який розташований на одному або декількох твердих дисках комп'ютера.
Після синтаксичного аналізу індексатор додає вказаний документ в список документів для відповідних слів. У більш великих пошукових системах процес знаходження кожного слова для інвертованого індексу може потребувати великого обсягу роботи, тому його, зазвичай, поділяють на дві частини:
- розробка прямого індексу,
- сортування прямого індексу в інвертований індекс.
Інвертований індекс називається так через те, що він є інверсією прямого індексу.
Стиснення
Створення та підтримка великомасштабного пошукового індексу потребує значної пам'яті та виконання завдань обробки. Багато пошукових систем використовують ту чи іншу форму стиснення, щоб зменшити розмір індексів на диску. Розглянемо таку ситуацію для повнотекстового механізму пошуку в Інтернеті:
- Потрібно 8 бітів (1 байт) для зберігання одного символу. Деякі кодування використовують 2 байта на символ.
- Середнім числом символів в будь-якому слові на сторінці візьмемо 5.
Враховуючи цей сценарій, не стислий індекс для 2 мільярдів вебсторінок мав би зберігати 500 мільярдів записів слів. 1 байт за символ або 5 байтів за слово — було б потрібно 2500 гігабайт одного лише простору пам'яті. Це більше, ніж середній вільний простір на диску 2 персональних комп'ютерів. Для відмовостійкій розподіленої архітектури потрібно ще більше пам'яті. Залежно від обраного методу стиснення індекс може бути зменшений до частини такого розміру. Компроміс часу і обчислювальної потужності, необхідної для виконання стиснення та розпакування.
Цікаво, що великомасштабні проекти пошукових систем містять витрати на зберігання, а також на електроенергію для здійснення зберігання.
Синтаксичний аналіз документа
Синтаксичний аналіз (або парсинг) документа передбачає його розбір на компоненти (слова) для вставки в прямий та інвертований індекси. Знайдені слова називають токенами (англ. token), і в контексті індексації пошукових систем та обробки природної мови парсинг часто називають токенізацією (тобто розбиттям на токени). Синтаксичний аналіз іноді називають розміткою частин мови, морфологічним аналізом, контент-аналізом, текстовим аналізом, аналізом тексту, генерацією узгодження, сегментацією промови, лексичним аналізом. Терміни «індексація», «парсинг» та «токенізація» взаємозамінні в корпоративному сленгу.
Обробка природної мови постійно досліджується і покращується. Токенізація має проблеми з отриманням необхідної інформації з документів для індексації, для підтримання якісного пошуку. Токенізація для індексації включає в себе кілька технологій, реалізація яких може бути комерційною таємницею.
Проблеми при обробці природної мови
- Неоднозначність меж слова
- може здатися, що токенізація є простим завданням, але це не так, особливо при розробці багатомовного індексатора. У цифровій формі тексти деяких мов таких як китайська, японська або арабська являють собою складну задачу, оскільки слова чітко не розділені пропуском. Мета токенізації в тому, щоб розпізнати слова, які шукатимуть користувачі. Специфічна для кожної мови логіка використовується, щоб правильно розпізнати межі слів, що необхідно для розробки синтаксичного аналізатора для кожної підтримуваної мови (або для груп мов зі схожими кордонами та синтаксисом).
- Неоднозначність мови
- Для більш точного ранжування документів пошукові системи можуть враховувати додаткову інформацію про слово, наприклад, до якої мови або частини мови воно відноситься. Ці методи залежать від мови, оскільки синтаксис між мовами різниться. При токенізації деякі пошукові системи намагаються автоматично визначити мову документа.
- Різні формати файлів
- Для того щоб правильно визначити, які байти представляють символи документа, формат файлу повинен бути правильно оброблений. Пошукові системи, які підтримують різні формати файлів повинні правильно відкривати документ, отримувати доступ до документа та токенізувати його символи.
- Помилки пам'яті
- Якість даних природної мови не завжди може бути досконалою. Уразливість існує через невідому кількість документів, зокрема в інтернеті, які не підпорядковуються відповідному протоколу файлу. Двійкові символи можуть бути помилково закодовані в різних частинах документа. Без розпізнавання цих символів та відповідної обробки може погіршитися якість індексу або індексування.
Токенізація
На відміну від більшості людей, комп'ютери не розуміють структуру документа природної мови і не можуть автоматично розпізнавати слова та пропозиції. Для комп'ютера документ — це лише послідовність байтів. Комп'ютер не «знає», що символ пробілу є роздільником слів в документі. Людина повинна запрограмувати комп'ютер так, щоб визначити, що є окремим словом, званим токеном. Таку програму зазвичай називають токенізатором або синтаксичним аналізатором (парсером), а також лексичним аналізатором. Деякі пошукові системи та інше ПО для обробки природної мови, підтримують спеціалізовані програми зручні для здійснення синтаксичного аналізу, наприклад, YACC або [ru].
Під час токенізації синтаксичний аналізатор визначає послідовність символів, які представляють слова та інші елементи, наприклад, пунктуація, представлена числовими кодами, деякі з яких є недрукованими керуючими символами. Синтаксичний аналізатор може розпізнати деякі об'єкти, наприклад, адреси електронної пошти, телефонні номери та URL. При розпізнаванні кожного токена можуть бути збережені деякі характеристики, наприклад, мова або кодування, частина мови, позиція, число пропозиції, позиція в реченні, довжина та номер рядка.
Визначення мови
Якщо пошукова система підтримує декілька мов, то першим кроком під час токенізації буде визначення мови кожного документа, оскільки багато таких кроків залежать від цього (наприклад, Стемінг та визначення частини мови). Визначення мови — це процес, при якому комп'ютерна програма намагається автоматично визначити чи класифікувати мову документа. Автоматичне розпізнавання мови є предметом досліджень в обробці природної мови.
Аналіз формату документа
Якщо пошукова система підтримує безліч форматів документів, то документи мають бути підготовлені для токенізації. Проблема полягає в тому, що деякі формати документів містять інформацію про форматування на додаток до текстового змісту. Наприклад, документи HTML містять HTML-теги. Якби пошукова система ігнорувала відмінність між змістом та розміткою тексту, то стороння інформація включалася б в індекс, що привело б до поганих результатів пошуку. Аналіз формату — виявлення та обробка мови розмітки, вбудованої в документ. Аналіз формату також згадується як структурний аналіз, поділ тегів, текстова нормалізація.
Задача аналізу формату ускладнюється тонкощами різних форматів файлів. Деякі з них захищаються правом інтелектуальної власності, про них мало інформації, а інші навпаки добре документовані. Поширені, добре задокументовані формати файлів, які підтримують пошукові системи:
- HTML
- ASCII текстові файли (текстові документи без спеціального форматування)
- Adobe-формат електронних документів (PDF)
- PostScript (PS)
- LaTeX
- Usenet формат новинних інтернет-серверів
- XML і похідні, наприклад, RSS
- SGML
- Формати мультимедійних метаданих, як ID3
- Microsoft Word
- Microsoft Excel
- Microsoft PowerPoint
- IBM Lotus Notes
Деякі пошукові системи підтримують файли, які зберігаються в стислому або зашифрованому форматі. При роботі зі стисненим форматом індексатор спочатку розпаковує документ. Цей крок може привести до одного або декількох файлів, кожний з яких повинен бути індексований окремо. Бувають такі підтримувані формати стисненого файлу:
- ZIP — формат стиснення даних та архівації файлів
- RAR — формат стиснення даних та умовно-безкоштовна програма-архіватор
- [ru] — Microsoft Windows Cabinet File
- Gzip — формат стисненого файлу gzip
- BZIP — формат стисненого файлу bzip
- Tape ARchive (TAR), стиснений файл Unix
- TAR.Z, TAR.GZ or TAR.BZ2 — Unix-архів файлів стиснутих в Compress, GZIP або BZIP2
Аналіз формату може включати методи підвищення якості, що дозволяють уникнути включення «непотрібної інформації» в індекс. Контент може керувати інформацією про форматування, щоб включати додаткові відомості. Приклади зловживання форматуванням документа в разі вебспаму:
- Включення сотні або тисячі слів в розділ, який прихований від подання на моніторі, але є видимим індексаторам, за допомогою тегів форматування (наприклад, в прихований тег div в HTML можна включити використання CSS або JavaScript).
- Установка кольору шрифту слів таким самим, як колір фону, що робить невидимими слова для людини при перегляді документа, але слова залишаються видимими для індексатора.
Розпізнавання розділу
Деякі пошукові системи включають розпізнавання розділу, визначають основні частини документа до токенізації. Не всі документи в корпусі читаються як правильно написана книга, розділена на розділи та сторінки. Деякі документи в Інтернеті, такі як [ru] та корпоративні звіти, містять помилковий зміст та бічні блоки, в яких немає основного матеріалу. Наприклад, ця стаття відображає в лівому меню посилання на інші вебсторінки. Деякі формати файлів, як HTML або PDF, допускають зміст, який буде відображатися в колонках. Хоча вміст документа представлено на екрані в різних областях, вихідний текст зберігає цю інформацію послідовно. Слова з'являються та індексуються послідовно в початковому тексті, незважаючи на те, що пропозиції та абзаци відображуються в різних частинах монітора. Якщо пошукові системи індексують весь контент як основний зміст документа, то якість індексу та пошуку може погіршитися. Відзначають дві основні проблеми:
- Вміст в різних розділах розглядають як пов'язане з індексом, хоча насправді це не так.
- Додатковий вміст «бічної панелі» включено в індекс, але воно не сприяє реальній значущості документа, тому індекс заповнений поганим поданням про документ.
Для аналізу розділу може знадобитися, щоб пошукова система реалізувала логіку візуалізації кожного документа, тобто абстрактне уявлення самого документа, і потім проіндексувала уявлення замість документа. Наприклад, іноді для виведення контенту на сторінку в Інтернеті використовують JavaScript. Якщо пошукова система «не бачить» JavaScript, то індексація сторінок відбувається некоректно, оскільки частина контенту не індексується. Враховуючи, що деякі пошукові системи не турбуються про проблеми візуалізації, веброзробники намагаються не представляти контент через JavaScript або використовують тег [ru], щоб переконатися, що вебсторінка індексується належним чином. Водночас цей факт можна використати, щоб «змусити» Індексатор пошукової системи «бачити» різний прихований зміст.
Індексація метатегів
Певні документи часто містять вбудовані метадані, такі як автор, ключові слова, опис і мову. В HTML-сторінках метатеги містять ключові слова, які також включені в індекс. У більш ранніх технологіях пошуку в Інтернеті індексувалися ключові слова в метатегах для прямого індексу, а повний текст документа не аналізувався. У той час ще не було повнотекстової індексації, і апаратне забезпечення комп'ютера було не в змозі підтримувати таку технологію. Мова розмітки HTML спочатку включала підтримку метатегів для того, щоб правильно та легко індексувати, без використання токенізації.
У процесі розвитку Інтернету в 1990-х, багато корпорацій створило корпоративні вебсайти. Ключові слова, які використовуються для опису вебсторінок, стали більше орієнтуватися на маркетинг та розроблялися, щоб керувати продажами, розміщуючи вебсторінку в початок сторінки результатів пошуку для певних пошукових запитів. Факт, що ці ключові слова були визначені суб'єктивно, призводив до спаму. Це змусило пошукові системи прийняти повнотекстову індексацію. Розробники пошукової системи могли помістити багато «маркетингових ключових слів» у зміст вебсторінки до того, як наповнять її цікавою та корисною інформацією. Однак метою проектування вебсайтів було залучення клієнтів, тому розробники були зацікавлені в тому, щоб включити більше корисного контенту на сайт, аби зберегти [ru]. В цьому сенсі повнотекстова індексація була більш об'єктивною та збільшила якість результатів пошукової системи, що сприяло дослідженням технологій повнотекстової індексації.
В локальному пошуку рішення можуть включати метатеги, щоб забезпечити пошук за авторами, оскільки пошукова система індексує контент з різних файлів, зміст яких не є очевидним. Локальний пошук більше перебуває під контролем користувача, в той час як механізми інтернет-пошуку повинні більше фокусуватися на повнотекстовому індексі.
Див. також
Примітки
- Clarke,Cormack, 1995.
- Rice,Bailey.
- Jacobs,Finkelstein,Salesin, 2006.
- Lee.
- Браун"--, 1996.
- Cutting,Pedersen, 1990.
- mysql.
- trie.
- Gusfield, 1997.
- inverted index.
- Foster, 1965.
- Landauer, 1963.
- 5-gram.
- Dean,Ghemawat, 2004.
- Brin,Page, 2006.
- Grossman,Frieder,Goharian, 2002.
- Tang,Sandhya, 2004.
- Tomasic, 1994.
- Luk,Lam, 2007.
- unicode.
- Tokenization Guidelines, 2011.
- Lex&Yacc, 1992.
- Automated language recognition, 2009.
- html, 2011.
- formats files.
- Типи файлів Google/Yandex.
- Програми індексації та пошуку файлів.
- Індексування архівів.
- Служба індексування windows.
- JS indexing.
- Lee Hypertext, 1995.
Посилання
- James Lee (Ноябрь 09, 2006). Software Learns to Tag Photos. MIT Technology Review (англ.). с. 1—2. Процитовано 2013-12-3.
- Stephen V. Rice, Stephen M. Bailey (Май 2004). Searching for Sounds Comparisonics Searching for Sounds (англ.). © 2013 Comparisonics Corporation.
- С. Брин, Л. Пейдж. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Архів оригіналу за 30 березня 2012. Процитовано 2013-12-3.
- MySQL 5.1 Reference Manual. mysql.com (англ.). © Oracle and/or its affiliates 1997, 2013. Процитовано 24 жовтня 2013.
- Vreda Pieterse and Paul E. Black (22 Февраль 2011). "trie" in Dictionary of Algorithms and Data Structures. http://www.nist.gov (англ.).
- Vreda Pieterse and Paul E. Black (14 Серпня 2008). "inverted index" in Dictionary of Algorithms and Data Structures. http://www.nist.gov U.S. National Institute of Standards and Technology (англ.).
- Thorsten Brants, Alex Franz (Сентябрь 19, 2006). Web 1T 5-gram Version 1. http://catalog.ldc.upenn.edu/ (англ.).
- The Unicode Standard - Frequently Asked Questions (англ.). Грудень 2006.
- Файли яких форматів індексує Google?. http://www.seowords.ru. © 2008-2013 Немного о seo. 22 Февраль 2010. Процитовано 24 листопада 2013.
- rznasa (2010-09-21 22:42). . http://excalibur.com.ua. © 2009-2010 Портал о создании и продвижении сайтов :: EXCALIBUR. Архів оригіналу за 4 грудня 2013. Процитовано 24 листопада 2013.
- ghosty (25 березня 2003). Програми індексації та пошуку файлів / Desktop Search. Процитовано 2013-12-1.
- Максим Захаров (11 Май 2010). Індексування архівів. Процитовано 2013-12-1.
- Служба індексування windows. 20 серпня 2013. Процитовано 2013-12-1.
- . ©2013 Google. Архів оригіналу за 10 грудня 2013. Процитовано 2013-12-1.
Література
- Charles L. A. Clarke , Gordon V. Cormack. Dynamic Inverted Indexes for a Distributed Full-Text Retrieval System : ( )[англ.] // MultiText Pro ject Technical Report MT-95-01. — University of Waterloo, Waterloo, Ontario N2L 3G1, Canada, 1995.
- Charles E. Jacobs, Adam Finkelstein, David H. Salesin. Fast Multiresolution Image Querying : ( )[англ.] // Department of Computer Science and Engineering. — University of Washington, Seattle, Washington 98195, 2006.
- Cutting, D., Pedersen, J. Optimizations for dynamic inverted index maintenance : ( )[англ.]. — NY, USA : ACM New York, 1990. — С. 405-411. — .
- Eric W. Brown. Execution Performance Issues in Full-Text Information Retrieval. — University of Massachusetts Amherst : Computer Science Department, 1996. — 179 с. — (Technical Report 95-81).
- Dan Gusfield. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology. — USA : Cambridge University Press, 1997. — 326 с. — .[недоступне посилання з липня 2019]
- Caxton Croxford Foster. Information retrieval: information storage and retrieval using AVL trees : ( )[англ.] // ACM '65 Proceedings of the 1965 20th national conference. — NY, USA, 1965. — С. 192-205. — DOI:10.1145/800197.806043.
- Landauer, W. I. The balanced tree and its utilization in information retrieval : ( )[англ.] // IEEE Trans. on Electronic Computers. — USA, 1963. — № 6. — С. 12.
- Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplified Data Processing on Large Clusters : ( )[англ.]. — Google, Inc, 2004.
- Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine : ( )[англ.]. — Stanford University, Stanford : Computer Science Department, 2006.
- Grossman, Frieder, Goharian. IR Basics of Inverted Index : ( )[англ.]. — 2002.
- Tang Hunqiang, Sandhya Dwarkadas. Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval : ( )[англ.]. — University of Rochester : Computer Science Department, 2004.
- Anthony Tomasic. Incremental Updates of Inverted Lists for Text Document Retrieval : ( )[англ.]. — Stanford University, 1994.
- Robert W.P. Luk, Wai Lam. Efficient in-memory extensible inverted file : ( )[англ.] // Information Systems. — 2007. — № 32 (5). — С. 733-754. — DOI:10.1016/j.is.2006.06.001.
- Radim Řehůřek, Milan Kolkus. Language Identification on the Web: Extending the Dictionary Method : ( )[англ.] // Lecture Notes in Computer Science Volume. — Mexico, 2009. — № 5449. — С. 357-368. — .[недоступне посилання з червня 2019]
- Scoping SIG, Tokenization Taskforce PCI Security Standards Council. Info Supplement:PCI DSS Tokenization Guidelines. — 2011. — С. 23.
- Б. Лоусон, Р. Шарп. Изучаем HTML5 = Introducing HTML5. — Питер, 2011. — 272 с. — (Библиотека специалиста). — 2000 екз. — , 978-0321687296.
- T. Berners-Lee. Hypertext Markup Language - 2.0 : ( )[англ.]. — Network Working Group, 1995.
- Levine JR, Mason T, Brown D. Lex & Yacc. — Sebastopol : O'Reilly & Associates, 1992. — P. 387. — .
Ця стаття містить текст, що не відповідає . (травень 2016) |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Poshuko vij i ndeks struktura danih yaka mistit informaciyu pro dokumenti ta vikoristovuyetsya v poshukovih sistemah Indeksuvannya sho zdijsnyuyetsya poshukovoyu mashinoyu proces zboru sortuvannya ta zberigannya danih z metoyu zabezpechennya shvidkogo ta tochnogo poshuku informaciyi Stvorennya indeksu vklyuchaye mizhdisciplinarni ponyattya z lingvistiki kognitivnoyi psihologiyi matematiki informatiki ta fiziki Vebindeksuvannyam nazivayut proces indeksuvannya v konteksti poshukovih mashin rozroblenih dlya poshuku vebstorinok v Interneti Populyarni poshukovi mashini zoseredzhuyutsya na povnotekstovij indeksaciyi dokumentiv napisanih prirodnoyu movoyu Multimedijni dokumenti taki yak video ta audio i grafika takozh mozhut brati uchast u poshuku Metaposhukovi mashini vikoristovuyut indeksi inshih poshukovih servisiv i ne zberigayut lokalnij indeks todi yak poshukovi mashini zasnovani na kesh storinkah dovgo zberigayut yak indeks tak i tekstovi korpusi Na vidminu vid povnotekstovih indeksiv chastkovo tekstovi servisi obmezhuyut glibinu indeksaciyi shob zmenshiti rozmir indeksu Veliki servisi zazvichaj vikonuyut indeksaciyu v zadanomu chasovomu intervali cherez neobhidnist chasu i vitrat na obrobku u toj chas yak poshukovi mashini zasnovani na agentah buduyut indeks u masshtabi realnogo chasu IndeksaciyaMeta vikoristannya indeksu pidvishennya shvidkosti poshuku relevantnih dokumentiv za poshukovim zapitom Bez indeksu poshukova mashina povinna bula b skanuvati kozhen dokument v korpusi sho vimagalo b velikoyi kilkosti chasu i obchislyuvalnoyi potuzhnosti Napriklad u toj chas yak indeks 10 000 dokumentiv mozhe buti opitano v mezhah milisekund poslidovnij pereglyad kozhnogo slova v 10 000 velikih dokumentiv mig bi zajnyati godini Dodatkova pam yat sho vidilyayetsya dlya zberigannya indeksu i zbilshennya chasu neobhidnogo dlya ponovlennya indeksu kompensuyetsya zmenshennyam chasu na poshuk informaciyi Faktori sho vplivayut na proektuvannya poshukovih sistem Pri rozrobci poshukovoyi sistemi neobhidno vrahovuvati taki faktori Faktori zlittya Yak dani vhodyat do indeksu Yak slova ta pidlegli funkciyi dodayutsya do indeksu pid chas tekstovogo korpusnogo obhodu I chi mozhut kilka poshukovih robotiv pracyuvati asinhronno Poshukovij robot povinen spochatku pereviriti onovlyuye vin starij zmist abo dodaye novij Zlittya indeksu poshukovoyi sistemi podibno SQL Merge ta inshim algoritmam zlittya 5 Metodi zberigannya Yak zberigati indeksovani dani Tobto viznachayut vid informaciyi sho zberigayetsya stisnutij abo vidfiltrovanij Rozmir indeksu Skilki neobhidno pam yati komp yutera abi pidtrimuvati indeks Shvidkist poshuku Yak shvidko mozhna znajti slovo v invertovanomu indeksi Vazhlivim dlya informatiki ye porivnyannya shvidkosti znahodzhennya zapisu v strukturi danih ta shvidkosti onovlennya vidalennya indeksu Zberigannya Yak zberigayetsya indeks protyagom trivalogo chasu Vidmovostijkist Dlya poshukovoyi sluzhbi vazhlivo buti nadijnoyu Zapitannya vidmovostijkosti mistyat problemu ushkodzhennya indeksu viznachayuchi chi mozhna okremo rozglyadati nekorektni dani pov yazani z poganimi aparatnimi zasobami sekciyuvannyam ta shemami na osnovi gesh funkcij ta kompozitnogo sekciyuvannya a takozh replikaciyi Indeksni strukturi danih Arhitektura poshukovoyi sistemi rozriznyayetsya za sposobami indeksuvannya i za metodami zberigannya indeksiv zadovolnyayuchi chinniki Indeksi buvayut nastupnih tipiv Sufiksne derevo Obrazno strukturovane yak derevo pidtrimuye linijnij chas poshuku Pobudovano na zberiganni sufiksiv sliv Dereva pidtrimuyut rozshirene geshuvannya yake vazhlivo dlya indeksaciyi poshukovoyi sistemi Vikoristovuyetsya dlya poshuku za shablonom v poslidovnostyah DNK ta klasterizaciyi Osnovnim nedolikom ye te sho zberigannya slova v derevi mozhe potrebuvati prostir bilshij nizh neobhidno dlya zberigannya samogo slova Alternativnij zapis ru Vvazhayetsya sho vin vimagaye menshe virtualnoyi pam yati ta pidtrimuye blochno sortuvalnij stisk danih Invertovanij indeks Shovishe spisku vhodzhen kozhnogo kriteriyu poshuku zazvichaj u formi gesh tablic abo binarnogo dereva Indeks cituvannya Shovishe citat abo giperposilan mizh dokumentami dlya pidtrimki analizu cituvannya predmet bibliometriyi N grami Shovishe poslidovnostej dovzhin danih dlya pidtrimki inshih tipiv poshuku abo analizu tekstu Matricya termiv dokumenta Vikoristovuyetsya v latentno semantichnomu analizi LSA zberigaye vhodzhennya sliv u dokumentah dvovimirnoyi rozridzhenoyi matrici Problemi paralelnogo indeksuvannya Odniyeyu z osnovnih zadach pri proektuvanni poshukovih sistem ye upravlinnya poslidovnimi obchislyuvalnimi procesami Isnuyut situaciyi u yakih mozhlive stvorennya stanu gonitvi ta kogerentnih vidmov Napriklad novij dokument dodanij do korpusu i indeks povinen buti onovlenim ale v toj zhe chas indeks povinen prodovzhuvati vidpovidati na poshukovi zapiti Ce koliziya mizh dvoma konkuruyuchimi zavdannyami Vvazhayetsya sho avtori ye virobnikami informaciyi a poshukovij robot spozhivachem ciyeyi informaciyi yakij zahoplyuye tekst ta zberigaye jogo v keshi abo korpusi Pryamij indeks ye spozhivachem informaciyi viroblenoyi korpusom a invertovanij indeks spozhivachem informaciyi viroblenoyi pryamim indeksom Ce zazvichaj zgaduyetsya yak model virobnika spozhivacha Indeksator ye virobnikom dostupnoyi dlya poshuku informaciyi a koristuvachi yaki yiyi shukayut spozhivachami Problema posilyuyetsya pri rozpodilenomu zberiganni ta rozpodilenij obrobci Shob masshtabuvati veliki obsyagi indeksovanoyi informaciyi poshukova sistema mozhe gruntuvatisya na arhitekturi rozpodilenih obchislen pri comu poshukova sistema skladayetsya z dekilkoh mashin sho pracyuyut uzgodzheno Ce zbilshuye jmovirnist nelogichnosti ta robit skladnishoyu pidtrimku povnistyu sinhronizovanoyi rozpodilenoyi paralelnoyi arhitekturi Pryamij indeks Pryamij indeks zberigaye spisok sliv dlya kozhnogo dokumenta Nizhche navedena sproshena forma pryamogo indeksu Pryamij indeks Dokument SlovaDokument 1 Lyubit Ukrayinu u sni j nayavuDokument 2 vishnevu svoyu UkrayinuDokument 3 krasu yiyi vichno zhivu i novuDokument 4 i movu yiyi solov yinu Neobhidnist rozrobki pryamogo indeksu poyasnyuyetsya tim sho najkrashe odrazu zberigati slova za dokumentami oskilki yih nadali analizuyut dlya stvorennya poshukovogo indeksu Formuvannya pryamogo indeksu vklyuchaye asinhronnu sistemnu obrobku yaka chastkovo obhodit onovlennya invertovanogo indeksu Pryamij indeks sortuyut shob peretvoriti v invertovanij Pryamij indeks vlasne yavlyaye soboyu spisok par yaki skladayutsya z dokumentiv ta sliv vidsortovanih za dokumentami Peretvorennya pryamogo indeksu u invertovanij ye lishe pitannyam sortuvannya par za slovami U comu plani invertovanij indeks vidsortovanij za slovami pryamij indeks Invertovanij indeks Dokladnishe Invertovanij indeks Bagato poshukovih sistem vikoristovuyut invertovanij indeks pri ocinyuvanni poshukovogo zapitu shob shvidko viznachiti misce roztashuvannya dokumentiv sho mistyat slova zapitu a potim ranzhuvati ci dokumenti po relevantnosti Oskilki invertovanij indeks zberigaye spisok dokumentiv sho mistyat kozhne slovo poshukova sistema mozhe vikoristovuvati pryamij dostup abi znajti dokumenti pov yazani z kozhnim slovom v zapiti i shvidko otrimati yih Nizhche navedeno sproshene uyavlennya invertovanogo indeksu Invertovanij indeks Slovo Dokumentivichno Dokument 3vishnevu Dokument 2zhivu Dokument 3i Dokument 3 Dokument 4yiyi Dokument 3 Dokument 4j Dokument 1krasu Dokument 3lyubit Dokument 1movu Dokument 4nayavu Dokument 1novu Dokument 3svoyu Dokument 2sni Dokument 1solov yinu Dokument 4u Dokument 1Ukrayinu Dokument 1 Dokument 2 Invertovanij indeks mozhe lishe viznachiti chi isnuye slovo v mezhah konkretnogo dokumenta oskilki ne zberigaye zhodnoyi informaciyi shodo chastoti ta poziciyi slova i tomu jogo vvazhayut logichnim indeksom Vin viznachaye yaki dokumenti vidpovidayut zapitu ale ne ocinyuye yih U deyakih vipadkah indeks mistit dodatkovu informaciyu taku yak chastota kozhnogo slova v kozhnomu dokumenti abo poziciya slova v dokumenti Informaciya pro poziciyu slova dozvolyaye poshukovomu algoritmu identifikuvati blizkist slova shob pidtrimuvati poshuk fraz Chastota mozhe vikoristovuvatisya shob dopomogti v ranzhuvanni dokumentiv za zapitom Taki temi v centri uvagi doslidzhen informacijnogo poshuku Invertovanij indeks predstavlenij rozridzhenoyu matriceyu oskilki ne vsi slova prisutni v kozhnomu dokumenti Indeks podibnij matrici termiv dokumenta sho vikoristovuyetsya v LSA Invertovanij indeks mozhna vvazhati formoyu gesh tablici V deyakih vipadkah indeks predstavlenij u formi dvijkovogo dereva yaka vimagaye dodatkovoyi pam yati ale mozhe zmenshiti chas poshuku U velikih indeksah arhitektura zazvichaj predstavlena rozpodilenoyu gesh tabliceyu Zlittya indeksu Invertovanij indeks zapovnyuyetsya shlyahom zlittya abo vidnovlennya Arhitektura mozhe buti sproektovana tak shob pidtrimuvati inkrementnu indeksaciyu u yakij zlittya viznachaye dokument abo dokumenti yaki budut dodani abo onovleni a potim analizuye kozhnij dokument v slova Dlya tehnichnoyi tochnosti zlittya ob yednuye nedavno indeksovani dokumenti yaki zazvichaj perebuvayut u virtualnij pam yati z indeksnim keshem yakij roztashovanij na odnomu abo dekilkoh tverdih diskah komp yutera Pislya sintaksichnogo analizu indeksator dodaye vkazanij dokument v spisok dokumentiv dlya vidpovidnih sliv U bilsh velikih poshukovih sistemah proces znahodzhennya kozhnogo slova dlya invertovanogo indeksu mozhe potrebuvati velikogo obsyagu roboti tomu jogo zazvichaj podilyayut na dvi chastini rozrobka pryamogo indeksu sortuvannya pryamogo indeksu v invertovanij indeks Invertovanij indeks nazivayetsya tak cherez te sho vin ye inversiyeyu pryamogo indeksu Stisnennya Stvorennya ta pidtrimka velikomasshtabnogo poshukovogo indeksu potrebuye znachnoyi pam yati ta vikonannya zavdan obrobki Bagato poshukovih sistem vikoristovuyut tu chi inshu formu stisnennya shob zmenshiti rozmir indeksiv na disku Rozglyanemo taku situaciyu dlya povnotekstovogo mehanizmu poshuku v Interneti Potribno 8 bitiv 1 bajt dlya zberigannya odnogo simvolu Deyaki koduvannya vikoristovuyut 2 bajta na simvol Serednim chislom simvoliv v bud yakomu slovi na storinci vizmemo 5 Vrahovuyuchi cej scenarij ne stislij indeks dlya 2 milyardiv vebstorinok mav bi zberigati 500 milyardiv zapisiv sliv 1 bajt za simvol abo 5 bajtiv za slovo bulo b potribno 2500 gigabajt odnogo lishe prostoru pam yati Ce bilshe nizh serednij vilnij prostir na disku 2 personalnih komp yuteriv Dlya vidmovostijkij rozpodilenoyi arhitekturi potribno she bilshe pam yati Zalezhno vid obranogo metodu stisnennya indeks mozhe buti zmenshenij do chastini takogo rozmiru Kompromis chasu i obchislyuvalnoyi potuzhnosti neobhidnoyi dlya vikonannya stisnennya ta rozpakuvannya Cikavo sho velikomasshtabni proekti poshukovih sistem mistyat vitrati na zberigannya a takozh na elektroenergiyu dlya zdijsnennya zberigannya Sintaksichnij analiz dokumentaSintaksichnij analiz abo parsing dokumenta peredbachaye jogo rozbir na komponenti slova dlya vstavki v pryamij ta invertovanij indeksi Znajdeni slova nazivayut tokenami angl token i v konteksti indeksaciyi poshukovih sistem ta obrobki prirodnoyi movi parsing chasto nazivayut tokenizaciyeyu tobto rozbittyam na tokeni Sintaksichnij analiz inodi nazivayut rozmitkoyu chastin movi morfologichnim analizom kontent analizom tekstovim analizom analizom tekstu generaciyeyu uzgodzhennya segmentaciyeyu promovi leksichnim analizom Termini indeksaciya parsing ta tokenizaciya vzayemozaminni v korporativnomu slengu Obrobka prirodnoyi movi postijno doslidzhuyetsya i pokrashuyetsya Tokenizaciya maye problemi z otrimannyam neobhidnoyi informaciyi z dokumentiv dlya indeksaciyi dlya pidtrimannya yakisnogo poshuku Tokenizaciya dlya indeksaciyi vklyuchaye v sebe kilka tehnologij realizaciya yakih mozhe buti komercijnoyu tayemniceyu Problemi pri obrobci prirodnoyi movi Neodnoznachnist mezh slova mozhe zdatisya sho tokenizaciya ye prostim zavdannyam ale ce ne tak osoblivo pri rozrobci bagatomovnogo indeksatora U cifrovij formi teksti deyakih mov takih yak kitajska yaponska abo arabska yavlyayut soboyu skladnu zadachu oskilki slova chitko ne rozdileni propuskom Meta tokenizaciyi v tomu shob rozpiznati slova yaki shukatimut koristuvachi Specifichna dlya kozhnoyi movi logika vikoristovuyetsya shob pravilno rozpiznati mezhi sliv sho neobhidno dlya rozrobki sintaksichnogo analizatora dlya kozhnoyi pidtrimuvanoyi movi abo dlya grup mov zi shozhimi kordonami ta sintaksisom Neodnoznachnist movi Dlya bilsh tochnogo ranzhuvannya dokumentiv poshukovi sistemi mozhut vrahovuvati dodatkovu informaciyu pro slovo napriklad do yakoyi movi abo chastini movi vono vidnositsya Ci metodi zalezhat vid movi oskilki sintaksis mizh movami riznitsya Pri tokenizaciyi deyaki poshukovi sistemi namagayutsya avtomatichno viznachiti movu dokumenta Rizni formati fajliv Dlya togo shob pravilno viznachiti yaki bajti predstavlyayut simvoli dokumenta format fajlu povinen buti pravilno obroblenij Poshukovi sistemi yaki pidtrimuyut rizni formati fajliv povinni pravilno vidkrivati dokument otrimuvati dostup do dokumenta ta tokenizuvati jogo simvoli Pomilki pam yati Yakist danih prirodnoyi movi ne zavzhdi mozhe buti doskonaloyu Urazlivist isnuye cherez nevidomu kilkist dokumentiv zokrema v interneti yaki ne pidporyadkovuyutsya vidpovidnomu protokolu fajlu Dvijkovi simvoli mozhut buti pomilkovo zakodovani v riznih chastinah dokumenta Bez rozpiznavannya cih simvoliv ta vidpovidnoyi obrobki mozhe pogirshitisya yakist indeksu abo indeksuvannya Tokenizaciya Na vidminu vid bilshosti lyudej komp yuteri ne rozumiyut strukturu dokumenta prirodnoyi movi i ne mozhut avtomatichno rozpiznavati slova ta propoziciyi Dlya komp yutera dokument ce lishe poslidovnist bajtiv Komp yuter ne znaye sho simvol probilu ye rozdilnikom sliv v dokumenti Lyudina povinna zaprogramuvati komp yuter tak shob viznachiti sho ye okremim slovom zvanim tokenom Taku programu zazvichaj nazivayut tokenizatorom abo sintaksichnim analizatorom parserom a takozh leksichnim analizatorom Deyaki poshukovi sistemi ta inshe PO dlya obrobki prirodnoyi movi pidtrimuyut specializovani programi zruchni dlya zdijsnennya sintaksichnogo analizu napriklad YACC abo ru Pid chas tokenizaciyi sintaksichnij analizator viznachaye poslidovnist simvoliv yaki predstavlyayut slova ta inshi elementi napriklad punktuaciya predstavlena chislovimi kodami deyaki z yakih ye nedrukovanimi keruyuchimi simvolami Sintaksichnij analizator mozhe rozpiznati deyaki ob yekti napriklad adresi elektronnoyi poshti telefonni nomeri ta URL Pri rozpiznavanni kozhnogo tokena mozhut buti zberezheni deyaki harakteristiki napriklad mova abo koduvannya chastina movi poziciya chislo propoziciyi poziciya v rechenni dovzhina ta nomer ryadka Viznachennya movi Yaksho poshukova sistema pidtrimuye dekilka mov to pershim krokom pid chas tokenizaciyi bude viznachennya movi kozhnogo dokumenta oskilki bagato takih krokiv zalezhat vid cogo napriklad Steming ta viznachennya chastini movi Viznachennya movi ce proces pri yakomu komp yuterna programa namagayetsya avtomatichno viznachiti chi klasifikuvati movu dokumenta Avtomatichne rozpiznavannya movi ye predmetom doslidzhen v obrobci prirodnoyi movi Analiz formatu dokumenta Yaksho poshukova sistema pidtrimuye bezlich formativ dokumentiv to dokumenti mayut buti pidgotovleni dlya tokenizaciyi Problema polyagaye v tomu sho deyaki formati dokumentiv mistyat informaciyu pro formatuvannya na dodatok do tekstovogo zmistu Napriklad dokumenti HTML mistyat HTML tegi Yakbi poshukova sistema ignoruvala vidminnist mizh zmistom ta rozmitkoyu tekstu to storonnya informaciya vklyuchalasya b v indeks sho privelo b do poganih rezultativ poshuku Analiz formatu viyavlennya ta obrobka movi rozmitki vbudovanoyi v dokument Analiz formatu takozh zgaduyetsya yak strukturnij analiz podil tegiv tekstova normalizaciya Zadacha analizu formatu uskladnyuyetsya tonkoshami riznih formativ fajliv Deyaki z nih zahishayutsya pravom intelektualnoyi vlasnosti pro nih malo informaciyi a inshi navpaki dobre dokumentovani Poshireni dobre zadokumentovani formati fajliv yaki pidtrimuyut poshukovi sistemi HTML ASCII tekstovi fajli tekstovi dokumenti bez specialnogo formatuvannya Adobe format elektronnih dokumentiv PDF PostScript PS LaTeX Usenet format novinnih internet serveriv XML i pohidni napriklad RSS SGML Formati multimedijnih metadanih yak ID3 Microsoft Word Microsoft Excel Microsoft PowerPoint IBM Lotus Notes Deyaki poshukovi sistemi pidtrimuyut fajli yaki zberigayutsya v stislomu abo zashifrovanomu formati Pri roboti zi stisnenim formatom indeksator spochatku rozpakovuye dokument Cej krok mozhe privesti do odnogo abo dekilkoh fajliv kozhnij z yakih povinen buti indeksovanij okremo Buvayut taki pidtrimuvani formati stisnenogo fajlu ZIP format stisnennya danih ta arhivaciyi fajliv RAR format stisnennya danih ta umovno bezkoshtovna programa arhivator ru Microsoft Windows Cabinet File Gzip format stisnenogo fajlu gzip BZIP format stisnenogo fajlu bzip Tape ARchive TAR stisnenij fajl Unix TAR Z TAR GZ or TAR BZ2 Unix arhiv fajliv stisnutih v Compress GZIP abo BZIP2 Analiz formatu mozhe vklyuchati metodi pidvishennya yakosti sho dozvolyayut uniknuti vklyuchennya nepotribnoyi informaciyi v indeks Kontent mozhe keruvati informaciyeyu pro formatuvannya shob vklyuchati dodatkovi vidomosti Prikladi zlovzhivannya formatuvannyam dokumenta v razi vebspamu Vklyuchennya sotni abo tisyachi sliv v rozdil yakij prihovanij vid podannya na monitori ale ye vidimim indeksatoram za dopomogoyu tegiv formatuvannya napriklad v prihovanij teg div v HTML mozhna vklyuchiti vikoristannya CSS abo JavaScript Ustanovka koloru shriftu sliv takim samim yak kolir fonu sho robit nevidimimi slova dlya lyudini pri pereglyadi dokumenta ale slova zalishayutsya vidimimi dlya indeksatora Rozpiznavannya rozdilu Deyaki poshukovi sistemi vklyuchayut rozpiznavannya rozdilu viznachayut osnovni chastini dokumenta do tokenizaciyi Ne vsi dokumenti v korpusi chitayutsya yak pravilno napisana kniga rozdilena na rozdili ta storinki Deyaki dokumenti v Interneti taki yak ru ta korporativni zviti mistyat pomilkovij zmist ta bichni bloki v yakih nemaye osnovnogo materialu Napriklad cya stattya vidobrazhaye v livomu menyu posilannya na inshi vebstorinki Deyaki formati fajliv yak HTML abo PDF dopuskayut zmist yakij bude vidobrazhatisya v kolonkah Hocha vmist dokumenta predstavleno na ekrani v riznih oblastyah vihidnij tekst zberigaye cyu informaciyu poslidovno Slova z yavlyayutsya ta indeksuyutsya poslidovno v pochatkovomu teksti nezvazhayuchi na te sho propoziciyi ta abzaci vidobrazhuyutsya v riznih chastinah monitora Yaksho poshukovi sistemi indeksuyut ves kontent yak osnovnij zmist dokumenta to yakist indeksu ta poshuku mozhe pogirshitisya Vidznachayut dvi osnovni problemi Vmist v riznih rozdilah rozglyadayut yak pov yazane z indeksom hocha naspravdi ce ne tak Dodatkovij vmist bichnoyi paneli vklyucheno v indeks ale vono ne spriyaye realnij znachushosti dokumenta tomu indeks zapovnenij poganim podannyam pro dokument Dlya analizu rozdilu mozhe znadobitisya shob poshukova sistema realizuvala logiku vizualizaciyi kozhnogo dokumenta tobto abstraktne uyavlennya samogo dokumenta i potim proindeksuvala uyavlennya zamist dokumenta Napriklad inodi dlya vivedennya kontentu na storinku v Interneti vikoristovuyut JavaScript Yaksho poshukova sistema ne bachit JavaScript to indeksaciya storinok vidbuvayetsya nekorektno oskilki chastina kontentu ne indeksuyetsya Vrahovuyuchi sho deyaki poshukovi sistemi ne turbuyutsya pro problemi vizualizaciyi vebrozrobniki namagayutsya ne predstavlyati kontent cherez JavaScript abo vikoristovuyut teg ru shob perekonatisya sho vebstorinka indeksuyetsya nalezhnim chinom Vodnochas cej fakt mozhna vikoristati shob zmusiti Indeksator poshukovoyi sistemi bachiti riznij prihovanij zmist Indeksaciya metategiv Pevni dokumenti chasto mistyat vbudovani metadani taki yak avtor klyuchovi slova opis i movu V HTML storinkah metategi mistyat klyuchovi slova yaki takozh vklyucheni v indeks U bilsh rannih tehnologiyah poshuku v Interneti indeksuvalisya klyuchovi slova v metategah dlya pryamogo indeksu a povnij tekst dokumenta ne analizuvavsya U toj chas she ne bulo povnotekstovoyi indeksaciyi i aparatne zabezpechennya komp yutera bulo ne v zmozi pidtrimuvati taku tehnologiyu Mova rozmitki HTML spochatku vklyuchala pidtrimku metategiv dlya togo shob pravilno ta legko indeksuvati bez vikoristannya tokenizaciyi U procesi rozvitku Internetu v 1990 h bagato korporacij stvorilo korporativni vebsajti Klyuchovi slova yaki vikoristovuyutsya dlya opisu vebstorinok stali bilshe oriyentuvatisya na marketing ta rozroblyalisya shob keruvati prodazhami rozmishuyuchi vebstorinku v pochatok storinki rezultativ poshuku dlya pevnih poshukovih zapitiv Fakt sho ci klyuchovi slova buli viznacheni sub yektivno prizvodiv do spamu Ce zmusilo poshukovi sistemi prijnyati povnotekstovu indeksaciyu Rozrobniki poshukovoyi sistemi mogli pomistiti bagato marketingovih klyuchovih sliv u zmist vebstorinki do togo yak napovnyat yiyi cikavoyu ta korisnoyu informaciyeyu Odnak metoyu proektuvannya vebsajtiv bulo zaluchennya kliyentiv tomu rozrobniki buli zacikavleni v tomu shob vklyuchiti bilshe korisnogo kontentu na sajt abi zberegti ru V comu sensi povnotekstova indeksaciya bula bilsh ob yektivnoyu ta zbilshila yakist rezultativ poshukovoyi sistemi sho spriyalo doslidzhennyam tehnologij povnotekstovoyi indeksaciyi V lokalnomu poshuku rishennya mozhut vklyuchati metategi shob zabezpechiti poshuk za avtorami oskilki poshukova sistema indeksuye kontent z riznih fajliv zmist yakih ne ye ochevidnim Lokalnij poshuk bilshe perebuvaye pid kontrolem koristuvacha v toj chas yak mehanizmi internet poshuku povinni bilshe fokusuvatisya na povnotekstovomu indeksi Div takozh ru Indeks bazi danih Otrimannya informaciyi Semantichne pavutinnyaPrimitkiClarke Cormack 1995 Rice Bailey Jacobs Finkelstein Salesin 2006 Lee Braun 1996 Cutting Pedersen 1990 mysql trie Gusfield 1997 inverted index Foster 1965 Landauer 1963 5 gram Dean Ghemawat 2004 Brin Page 2006 Grossman Frieder Goharian 2002 Tang Sandhya 2004 Tomasic 1994 Luk Lam 2007 unicode Tokenization Guidelines 2011 Lex amp Yacc 1992 Automated language recognition 2009 html 2011 formats files Tipi fajliv Google Yandex Programi indeksaciyi ta poshuku fajliv Indeksuvannya arhiviv Sluzhba indeksuvannya windows JS indexing Lee Hypertext 1995 PosilannyaJames Lee Noyabr 09 2006 Software Learns to Tag Photos MIT Technology Review angl s 1 2 Procitovano 2013 12 3 Stephen V Rice Stephen M Bailey Maj 2004 Searching for Sounds Comparisonics Searching for Sounds angl c 2013 Comparisonics Corporation S Brin L Pejdzh The Anatomy of a Large Scale Hypertextual Web Search Engine Arhiv originalu za 30 bereznya 2012 Procitovano 2013 12 3 MySQL 5 1 Reference Manual mysql com angl c Oracle and or its affiliates 1997 2013 Procitovano 24 zhovtnya 2013 Vreda Pieterse and Paul E Black 22 Fevral 2011 trie in Dictionary of Algorithms and Data Structures http www nist gov angl Vreda Pieterse and Paul E Black 14 Serpnya 2008 inverted index in Dictionary of Algorithms and Data Structures http www nist gov U S National Institute of Standards and Technology angl Thorsten Brants Alex Franz Sentyabr 19 2006 Web 1T 5 gram Version 1 http catalog ldc upenn edu angl The Unicode Standard Frequently Asked Questions angl Gruden 2006 Fajli yakih formativ indeksuye Google http www seowords ru c 2008 2013 Nemnogo o seo 22 Fevral 2010 Procitovano 24 listopada 2013 rznasa 2010 09 21 22 42 http excalibur com ua c 2009 2010 Portal o sozdanii i prodvizhenii sajtov EXCALIBUR Arhiv originalu za 4 grudnya 2013 Procitovano 24 listopada 2013 ghosty 25 bereznya 2003 Programi indeksaciyi ta poshuku fajliv Desktop Search Procitovano 2013 12 1 Maksim Zaharov 11 Maj 2010 Indeksuvannya arhiviv Procitovano 2013 12 1 Sluzhba indeksuvannya windows 20 serpnya 2013 Procitovano 2013 12 1 c 2013 Google Arhiv originalu za 10 grudnya 2013 Procitovano 2013 12 1 LiteraturaCharles L A Clarke Gordon V Cormack Dynamic Inverted Indexes for a Distributed Full Text Retrieval System angl MultiText Pro ject Technical Report MT 95 01 University of Waterloo Waterloo Ontario N2L 3G1 Canada 1995 Charles E Jacobs Adam Finkelstein David H Salesin Fast Multiresolution Image Querying angl Department of Computer Science and Engineering University of Washington Seattle Washington 98195 2006 Cutting D Pedersen J Optimizations for dynamic inverted index maintenance angl NY USA ACM New York 1990 S 405 411 ISBN 0 89791 408 2 Eric W Brown Execution Performance Issues in Full Text Information Retrieval University of Massachusetts Amherst Computer Science Department 1996 179 s Technical Report 95 81 Dan Gusfield Algorithms on Strings Trees and Sequences Computer Science and Computational Biology USA Cambridge University Press 1997 326 s ISBN 0 521 58519 8 nedostupne posilannya z lipnya 2019 Caxton Croxford Foster Information retrieval information storage and retrieval using AVL trees angl ACM 65 Proceedings of the 1965 20th national conference NY USA 1965 S 192 205 DOI 10 1145 800197 806043 Landauer W I The balanced tree and its utilization in information retrieval angl IEEE Trans on Electronic Computers USA 1963 6 S 12 Jeffrey Dean Sanjay Ghemawat MapReduce Simplified Data Processing on Large Clusters angl Google Inc 2004 Sergey Brin Lawrence Page The Anatomy of a Large Scale Hypertextual Web Search Engine angl Stanford University Stanford Computer Science Department 2006 Grossman Frieder Goharian IR Basics of Inverted Index angl 2002 Tang Hunqiang Sandhya Dwarkadas Hybrid Global Local Indexing for Efficient Peer to Peer Information Retrieval angl University of Rochester Computer Science Department 2004 Anthony Tomasic Incremental Updates of Inverted Lists for Text Document Retrieval angl Stanford University 1994 Robert W P Luk Wai Lam Efficient in memory extensible inverted file angl Information Systems 2007 32 5 S 733 754 DOI 10 1016 j is 2006 06 001 Radim Rehurek Milan Kolkus Language Identification on the Web Extending the Dictionary Method angl Lecture Notes in Computer Science Volume Mexico 2009 5449 S 357 368 ISBN 978 3 642 00382 0 nedostupne posilannya z chervnya 2019 Scoping SIG Tokenization Taskforce PCI Security Standards Council Info Supplement PCI DSS Tokenization Guidelines 2011 S 23 B Louson R Sharp Izuchaem HTML5 Introducing HTML5 Piter 2011 272 s Biblioteka specialista 2000 ekz ISBN 978 5 459 00269 0 978 0321687296 T Berners Lee Hypertext Markup Language 2 0 angl Network Working Group 1995 Levine JR Mason T Brown D Lex amp Yacc Sebastopol O Reilly amp Associates 1992 P 387 ISBN 1565920007 Cya stattya mistit tekst sho ne vidpovidaye enciklopedichnomu stilyu Bud laska dopomozhit udoskonaliti cyu stattyu pogodivshi stil vikladu zi stilistichnimi pravilami Vikipediyi Mozhlivo storinka obgovorennya mistit zauvazhennya shodo potribnih zmin traven 2016