Було запропоновано цю статтю або розділ до Пошуковий робот, але, можливо, це варто додатково . Пропозиція з грудня 2017. |
Краулінг (сканування, англ. crawling) — це процес сканування сайту автоматизованою системою. Сканування – початковий етап, дані збираються для подальшої внутрішньої обробки(побудова індексів) та не відображаються в результатах пошуку. Також може застосовуватись системами перевірки правопису [ 22 вересня 2020 у Wayback Machine.], посилань [ 2 березня 2019 у Wayback Machine.], Web scraping. Просканована сторінка не обов’язково є проіндексованою. У пошукової системи ресурси обмежені, а алгоритми краулінгу допоможуть оптимізувати процес: щоб для кожного сайту виділялася необхідна кількість «потужності», щоб успішно його індексувати.
Основні задачі
- швидка індексація;
- швидка переіндексація (якщо відбулися зміни з документом);
- якісні індекси (щоб в індекси потрапляли лише якісні документи, не потрапляв малоінформативний контент);
Краулінговий бюджет потрібен лише для сайтів з великим об’ємом інформації (від 100 сторінок). Адже маленькі сайти пошукова система проіндексує за відносно малу кількість часу (неділя, місяць). Також краулінг використовується для сайтів, що часто змінюються.
Пошуковий робот
Пошуковий робот (crawler, краулер, павук, бот) – програма для збору контенту в інтернеті. Пошуковий робот складається з безлічі комп’ютерів, що обирають сторінки швидше, ніж користувач за допомогою свого веббраузеру. Фактично він може обробляти тисячі різних сторінок одночасно.
Принцип роботи краулера:
- Максимальне охоплення мережі;
- Економія серверних ресурсів;
- Не сканувати те, що закрито;
- Оцінка корисності документу ще до його відкриття(авторитетність сторінки, рівень на URL-сторінці(кількість слешів), і т.і.);
- Оцінка корисності сайту після перших сканувань(уникнення сайтів с дублюванням, якісний контент);
Що впливає на краулінговий бюджет
- Швидкість віддачі, розмір документу;
- Об’єм сайту;
- Якість контенту (недопустима наявність малоінформативних сторінок);
- Коди статусів (якщо не 200/304);
- Відвідуваність сайту;
- Виділення IP-адреси;
- Популярність посилань (кількість, авторитетність посилань необхідні для пришвидшення індексації).
Для того, щоб подивитися на сайт очима краулера, потрібно вимкнути обробку JavaScript
Є декілька способів (на Google Chrome):
- Вимкнути через консоль розробника(F12)
- Використання інструменту «Подивитися як Googlebot»
- Спеціальне програмне забезпечення (http://pr-cy.ru/simulator/ [ 18 грудня 2017 у Wayback Machine.], https://netpeaksoftware.com/ru/spider [ 15 січня 2018 у Wayback Machine.] та інші).
Автоматизація краулінгу
Crawljax: Crawling Ajax-based Web Applications - це Java-інструмент з відкритим кодом, що дозволить протестувати ваш web – додаток фактично імітуючи користувача по браузингу сайту. Crawljax може досліджувати сайт, що використовує технологію ajax, при цьому автоматично створюючи динамічний граф станів DOM.
В основу Crawljax покладено дослідження 2007 р. Алі Мешбаха та Арі Ван Дрьосена. Основна ідея була закладена в їх спільній праці «Exposing the Hidden-WebInduced by Ajax», в якій вони показали як динамічний сайт, що використовує технологію ajax, може бути представлений у вигляді графа статичних станів DOM та переходів між ними.
Пізніше ця робота використовувалася для створення алгоритмів для пошукових систем, що давали б змогу їм краулити та аналізувати зміст динамічних web-додатків.
В кінці роботи Crawljax формує html-репорт, що містить граф станів та переходів по сайту, статистику щодо своєї роботи, список відвідуваних url-ів та детальну інформацію щодо кожного стану, в який може переходити DOM.
Також використовують платформу Node.js і т.і..
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Bulo zaproponovano priyednati cyu stattyu abo rozdil do Poshukovij robot ale mozhlivo ce varto dodatkovo obgovoriti Propoziciya z grudnya 2017 Krauling skanuvannya angl crawling ce proces skanuvannya sajtu avtomatizovanoyu sistemoyu Skanuvannya pochatkovij etap dani zbirayutsya dlya podalshoyi vnutrishnoyi obrobki pobudova indeksiv ta ne vidobrazhayutsya v rezultatah poshuku Takozh mozhe zastosovuvatis sistemami perevirki pravopisu 22 veresnya 2020 u Wayback Machine posilan 2 bereznya 2019 u Wayback Machine Web scraping Proskanovana storinka ne obov yazkovo ye proindeksovanoyu U poshukovoyi sistemi resursi obmezheni a algoritmi kraulingu dopomozhut optimizuvati proces shob dlya kozhnogo sajtu vidilyalasya neobhidna kilkist potuzhnosti shob uspishno jogo indeksuvati Osnovni zadachishvidka indeksaciya shvidka pereindeksaciya yaksho vidbulisya zmini z dokumentom yakisni indeksi shob v indeksi potraplyali lishe yakisni dokumenti ne potraplyav maloinformativnij kontent Kraulingovij byudzhet potriben lishe dlya sajtiv z velikim ob yemom informaciyi vid 100 storinok Adzhe malenki sajti poshukova sistema proindeksuye za vidnosno malu kilkist chasu nedilya misyac Takozh krauling vikoristovuyetsya dlya sajtiv sho chasto zminyuyutsya Poshukovij robotPoshukovij robot crawler krauler pavuk bot programa dlya zboru kontentu v interneti Poshukovij robot skladayetsya z bezlichi komp yuteriv sho obirayut storinki shvidshe nizh koristuvach za dopomogoyu svogo vebbrauzeru Faktichno vin mozhe obroblyati tisyachi riznih storinok odnochasno Princip roboti kraulera Maksimalne ohoplennya merezhi Ekonomiya servernih resursiv Ne skanuvati te sho zakrito Ocinka korisnosti dokumentu she do jogo vidkrittya avtoritetnist storinki riven na URL storinci kilkist sleshiv i t i Ocinka korisnosti sajtu pislya pershih skanuvan uniknennya sajtiv s dublyuvannyam yakisnij kontent Sho vplivaye na kraulingovij byudzhetShvidkist viddachi rozmir dokumentu Ob yem sajtu Yakist kontentu nedopustima nayavnist maloinformativnih storinok Kodi statusiv yaksho ne 200 304 Vidviduvanist sajtu Vidilennya IP adresi Populyarnist posilan kilkist avtoritetnist posilan neobhidni dlya prishvidshennya indeksaciyi Dlya togo shob podivitisya na sajt ochima kraulera potribno vimknuti obrobku JavaScript Ye dekilka sposobiv na Google Chrome Vimknuti cherez konsol rozrobnika F12 Vikoristannya instrumentu Podivitisya yak Googlebot Specialne programne zabezpechennya http pr cy ru simulator 18 grudnya 2017 u Wayback Machine https netpeaksoftware com ru spider 15 sichnya 2018 u Wayback Machine ta inshi Avtomatizaciya kraulinguCrawljax Crawling Ajax based Web Applications ce Java instrument z vidkritim kodom sho dozvolit protestuvati vash web dodatok faktichno imituyuchi koristuvacha po brauzingu sajtu Crawljax mozhe doslidzhuvati sajt sho vikoristovuye tehnologiyu ajax pri comu avtomatichno stvoryuyuchi dinamichnij graf staniv DOM V osnovu Crawljax pokladeno doslidzhennya 2007 r Ali Meshbaha ta Ari Van Drosena Osnovna ideya bula zakladena v yih spilnij praci Exposing the Hidden WebInduced by Ajax v yakij voni pokazali yak dinamichnij sajt sho vikoristovuye tehnologiyu ajax mozhe buti predstavlenij u viglyadi grafa statichnih staniv DOM ta perehodiv mizh nimi Piznishe cya robota vikoristovuvalasya dlya stvorennya algoritmiv dlya poshukovih sistem sho davali b zmogu yim krauliti ta analizuvati zmist dinamichnih web dodatkiv V kinci roboti Crawljax formuye html report sho mistit graf staniv ta perehodiv po sajtu statistiku shodo svoyeyi roboti spisok vidviduvanih url iv ta detalnu informaciyu shodo kozhnogo stanu v yakij mozhe perehoditi DOM Takozh vikoristovuyut platformu Node js i t i