Пошуковий робот (також англ. web crawler, англ. web spider) — програма для краулінгу, тобто збору контенту в інтернеті. Є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них до бази даних.
Пошукові роботи завантажують сторінки, зберігають їх зміст, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.
Як закрити сайт від індексації
- За допомогою файла robots.txt
- За допомогою (мета-тегу)
Краулінг
Краулінг (сканування, англ. crawling) — це процес сканування сайту автоматизованою системою. Сканування – початковий етап, дані збираються для подальшої внутрішньої обробки(побудова індексів) та не відображаються в результатах пошуку. Просканована сторінка не обов’язково є проіндексованою. У пошукової системи ресурси обмежені, а алгоритми краулінгу допоможуть оптимізувати процес: щоб для кожного сайту виділялася необхідна кількість «потужності», щоб успішно його індексувати.
Основні задачі
- швидка індексація;
- швидка переіндексація (якщо відбулися зміни з документом);
- якісні індекси (щоб в індекси потрапляли лише якісні документи, не потрапляв малоінформативний контент);
Краулінговий бюджет потрібен лише для сайтів з великим об’ємом інформації (від 100 сторінок). Адже маленькі сайти пошукова система проіндексує за відносно малу кількість часу (неділя, місяць). Також краулінг використовується для сайтів, що часто змінюються.
Що впливає на краулінговий бюджет
- Швидкість віддачі, розмір документу;
- Об’єм сайту;
- Якість контенту (недопустима наявність малоінформативних сторінок);
- Коди статусів (якщо не 200/304);
- Відвідуваність сайту;
- Виділення IP-адреси;
- Популярність посилань (кількість, авторитетність посилань необхідні для пришвидшення індексації).
Для того, щоб подивитися на сайт очима краулера, потрібно вимкнути обробку JavaScript
Є декілька способів (на Google Chrome):
- Вимкнути через консоль розробника(F12)
- Використання інструменту «Подивитися як Googlebot»
- Спеціальне програмне забезпечення (http://pr-cy.ru/simulator/ [ 18 грудня 2017 у Wayback Machine.], https://netpeaksoftware.com/ru/spider [ 15 січня 2018 у Wayback Machine.] та інші).
Автоматизація краулінгу
Crawljax: Crawling Ajax-based Web Applications - це Java-інструмент з відкритим кодом, що дозволить протестувати ваш web – додаток фактично імітуючи користувача по браузингу сайту. Crawljax може досліджувати сайт, що використовує технологію ajax, при цьому автоматично створюючи динамічний граф станів DOM.
В основу Crawljax покладено дослідження 2007 р. Алі Мешбаха та Арі Ван Дрьосена. Основна ідея була закладена в їх спільній праці «Exposing the Hidden-WebInduced by Ajax», в якій вони показали як динамічний сайт, що використовує технологію ajax, може бути представлений у вигляді графа статичних станів DOM та переходів між ними.
Пізніше ця робота використовувалася для створення алгоритмів для пошукових систем, що давали б змогу їм краулити та аналізувати зміст динамічних web-додатків.
В кінці роботи Crawljax формує html-репорт, що містить граф станів та переходів по сайту, статистику щодо своєї роботи, список відвідуваних url-ів та детальну інформацію щодо кожного стану, в який може переходити DOM.
Також використовують платформу Node.js і т.і..
Див. також
Посилання
- A History of Search Engines (англ.)
- Najork, Marc; Heydon, Allan. High-Performance Web Crawling (PDF). Процитовано 22 травня 2024.
- Barone, Adileo (17 липня 2023). adileo/MicroFrontier.
Це незавершена стаття про Інтернет. Ви можете проєкту, виправивши або дописавши її. |
Ця стаття потребує додаткових для поліпшення її . (жовтень 2015) |
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Poshukovij robot takozh angl web crawler angl web spider programa dlya kraulingu tobto zboru kontentu v interneti Ye skladovoyu chastinoyu poshukovoyi sistemi ta priznachena dlya pereglyadu storinok internetu z metoyu vvedennya informaciyi pro nih do bazi danih Poshukovi roboti zavantazhuyut storinki zberigayut yih zmist indeksuyut jogo i dobuvayut pidsumkovu informaciyu Voni takozh pereglyadayut zagolovki deyaki posilannya i vidpravlyayut proindeksovanu informaciyu do bazi danih poshukovogo mehanizmu Yak zakriti sajt vid indeksaciyiZa dopomogoyu fajla robots txt Za dopomogoyu meta teguKraulingKrauling skanuvannya angl crawling ce proces skanuvannya sajtu avtomatizovanoyu sistemoyu Skanuvannya pochatkovij etap dani zbirayutsya dlya podalshoyi vnutrishnoyi obrobki pobudova indeksiv ta ne vidobrazhayutsya v rezultatah poshuku Proskanovana storinka ne obov yazkovo ye proindeksovanoyu U poshukovoyi sistemi resursi obmezheni a algoritmi kraulingu dopomozhut optimizuvati proces shob dlya kozhnogo sajtu vidilyalasya neobhidna kilkist potuzhnosti shob uspishno jogo indeksuvati Osnovni zadachi shvidka indeksaciya shvidka pereindeksaciya yaksho vidbulisya zmini z dokumentom yakisni indeksi shob v indeksi potraplyali lishe yakisni dokumenti ne potraplyav maloinformativnij kontent Kraulingovij byudzhet potriben lishe dlya sajtiv z velikim ob yemom informaciyi vid 100 storinok Adzhe malenki sajti poshukova sistema proindeksuye za vidnosno malu kilkist chasu nedilya misyac Takozh krauling vikoristovuyetsya dlya sajtiv sho chasto zminyuyutsya Sho vplivaye na kraulingovij byudzhet Shvidkist viddachi rozmir dokumentu Ob yem sajtu Yakist kontentu nedopustima nayavnist maloinformativnih storinok Kodi statusiv yaksho ne 200 304 Vidviduvanist sajtu Vidilennya IP adresi Populyarnist posilan kilkist avtoritetnist posilan neobhidni dlya prishvidshennya indeksaciyi Dlya togo shob podivitisya na sajt ochima kraulera potribno vimknuti obrobku JavaScript Ye dekilka sposobiv na Google Chrome Vimknuti cherez konsol rozrobnika F12 Vikoristannya instrumentu Podivitisya yak Googlebot Specialne programne zabezpechennya http pr cy ru simulator 18 grudnya 2017 u Wayback Machine https netpeaksoftware com ru spider 15 sichnya 2018 u Wayback Machine ta inshi Avtomatizaciya kraulingu Crawljax Crawling Ajax based Web Applications ce Java instrument z vidkritim kodom sho dozvolit protestuvati vash web dodatok faktichno imituyuchi koristuvacha po brauzingu sajtu Crawljax mozhe doslidzhuvati sajt sho vikoristovuye tehnologiyu ajax pri comu avtomatichno stvoryuyuchi dinamichnij graf staniv DOM V osnovu Crawljax pokladeno doslidzhennya 2007 r Ali Meshbaha ta Ari Van Drosena Osnovna ideya bula zakladena v yih spilnij praci Exposing the Hidden WebInduced by Ajax v yakij voni pokazali yak dinamichnij sajt sho vikoristovuye tehnologiyu ajax mozhe buti predstavlenij u viglyadi grafa statichnih staniv DOM ta perehodiv mizh nimi Piznishe cya robota vikoristovuvalasya dlya stvorennya algoritmiv dlya poshukovih sistem sho davali b zmogu yim krauliti ta analizuvati zmist dinamichnih web dodatkiv V kinci roboti Crawljax formuye html report sho mistit graf staniv ta perehodiv po sajtu statistiku shodo svoyeyi roboti spisok vidviduvanih url iv ta detalnu informaciyu shodo kozhnogo stanu v yakij mozhe perehoditi DOM Takozh vikoristovuyut platformu Node js i t i Div takozhWeb scrapingPosilannyaA History of Search Engines angl Najork Marc Heydon Allan High Performance Web Crawling PDF Procitovano 22 travnya 2024 Barone Adileo 17 lipnya 2023 adileo MicroFrontier Ce nezavershena stattya pro Internet Vi mozhete dopomogti proyektu vipravivshi abo dopisavshi yiyi Cya stattya potrebuye dodatkovih posilan na dzherela dlya polipshennya yiyi perevirnosti Bud laska dopomozhit udoskonaliti cyu stattyu dodavshi posilannya na nadijni avtoritetni dzherela Zvernitsya na storinku obgovorennya za poyasnennyami ta dopomozhit vipraviti nedoliki Material bez dzherel mozhe buti piddano sumnivu ta vilucheno zhovten 2015