Стандарт винятків для роботів, також відомий як протокол винятків для роботів або просто robots.txt, це стандартний спосіб комунікації вебсайтів з пошуковими роботами та іншими роботами. Стандарт визначає, як повідомити вебробота про те, які частини вебсайту не повинні бути оброблені або проскановані. Роботи часто використовуються пошуковими системами, щоб встановити категорію сайту. Не всі роботи співпрацюють з даним стандартом, наприклад: [en], [en], шкідливі програми, і роботи що сканують на уразливості можуть навпаки почати з тих частин, від яких їм сказано триматися осторонь. Хоча стандарт і відрізняється від Sitemaps, але може використовуватися в поєднанні з ним.
Історія
Стандарт був запропонований при роботі на в лютому 1994 року. Чарльз Стросс стверджує, що це він спровокував Костера до створення ідеї robots.txt після того, як він написав некоректно працюючий вебоглядач, що викликало випадкову DoS атаку на сервер Костера.
Він швидко став стандартом де-факто, якому нинішні та майбутні пошукові роботи повинні слідувати; більшість виконала, у тому числі в пошукових системах, таких як WebCrawler, Lycos та AltaVista.
Про стандарт
Коли власники сайтів хочуть дати вказівки пошуковим роботам, вони поміщають текстовий файл robots.txt в корінь їхнього сайту (e.g. https://www.example.com/robots.txt). Цей файл містить вказівки в специфічному форматі (дивись приклад нижче). Роботи, які працюють з цим стандартом, намагаються отримати цей файл і прочитати вказівки в ньому перед тим як отримають будь-який інший файл з вебсайту. Якщо файл не існує, пошукові роботи вважають, що власник не бажає надавати будь-яких конкретних інструкцій, та проглядають весь сайт.
robots.txt файл на вебсайті функціонуватиме як вказівка роботам ігнорувати певні файли або каталоги при скануванні сайту. Це може бути використано для збереження особистої інформації від пошукових систем, або якщо вміст певного каталогу може бути неправильно інтерпретований або не підходить до основної категорії сайту. Або, якщо якийсь додаток має працювати тільки з певними даними. Посилання на сторінки в списку robots.txt все ще можуть з'являтися в результатах пошуку, якщо вони прив'язані з сторінок, які проглядати дозволено.
Файл robots.txt покриває тільки одне походження. Для вебсайтів з багатьма субдоменами кожен має мати власний robots.txt файл. Якщо example.com має файл robots.txt, а a.example.com ні, то правила, які використовуються для example.com не будуть використовуватися на a.example.com. Також кожен протокол та порт має мати свій власний robots.txt файл; http://example.com/robots.txt не буде застосований на https://example.com:8080/ або https://example.com/.
Багато основних пошукових систем, таких як: Ask, AOL, Baidu, Bing, Google, Yahoo!, та Yandex слідують цьому стандарту.
Файл robots.txt встановлює правила сканування сайту для пошукових роботів пошукових систем. Перед тим як здійснити аналіз сайту пошукові роботи виконують перевірку цього файлу. Завдяки такій процедурі вони можуть підвищити ефективність сканування і заощадити свої ресурси.
Безпека
Попри використання термінів «дозволити» і «заборонити», протокол є суто консультативний і спирається на чесність веброботів. Шкідливі веброботи навряд чи будуть слідувати robots.txt; деякі можуть навіть навпаки, використовувати robots.txt як підказку, щоб знайти заборонені посилання і перейти безпосередньо до них. У контексті robots.txt файли безпека через обмеження не рекомендується, як техніка безпеки.
Приклади
Цей приклад говорить всім роботам, що вони можуть переглядати всі файли через *
знак доступу для всіх та Disallow
вказівка, яка немає значень. Це значить, що жодна сторінка не є забороненою.
User-agent: * Disallow:
Такий же результат може бути досягнутий порожнім або взагалі відсутнім файлом robots.txt.
Цей приклад говорить всім роботам триматися подалі від всього сайту:
User-agent: * Disallow: /
А цей приклад говорить всім роботам не заходити в три каталоги:
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/
Цей приклад вказує всім роботам тримати подалі від одного певного файлу:
User-agent: * Disallow: /directory/file.html
Зауважте, що всі інші файли в цьому каталозі будуть доступні.
Цей приклад забороняє доступ до сайту тільки певному роботу:
User-agent: BadBot # замістити 'BadBot' фактичним ботом користувача Disallow: /
Цей приклад говорить двом певним роботам не заходити до певних каталогів:
User-agent: BadBot # замістити 'BadBot' фактичним ботом користувача User-agent: Googlebot Disallow: /private/
Приклад, який показує, як можуть бути використані коментарі:
# Коментар пишеться після символу "#" Символ пишеться на початку рядка, або після вказівок User-agent: * # відповідає всім роботам Disallow: / # вказує від чого триматися подалі
Також можливо перерахувати багато роботів з їхніми власними правилами. Даний рядок визначає доступ пошуковим системам. Декілька сайтів, таких як Google, підтримують декілька рядків агентів, що дозволяє оператору забороняти доступ підгрупі своїх сервісів з використанням конкретних рядків користувацького агента.
Приклад що демонструє кілька агентів:
User-agent: googlebot # Всі сервіси Google Disallow: /private/ # заборонити цей каталог User-agent: googlebot-news # Тільки сервіс новин Disallow: / # заборонити скрізь User-agent: * # Будь-який робот Disallow: /something/ # заборонити цей каталог
Нестандартні розширення
Crawl-delay
Crawl-delay - значення, яке вказує пошуковикам затримку для повторного завантаження сторінки. Оскільки це значення не є частиною стандарту, то і його інтерпретація залежить від ботів, якими воно зчитується. Yandex інтерпретує crawl-delay як кількість секунд, які потрібно зачекати перед повторним пошуком. Bing інтерпретує як розмір часового вікна, (від 1 до 30 секунд) протягом якого зайде на сайт тільки раз.
User-agent: * Crawl-delay: 10
З 15 лютого 2018 року Яндекс перестав враховувати директиву Crawl-delay.
Щоб задати швидкість, з якою роботи будуть завантажувати сторінки сайту, використовуйте швидкість обходу сайту у Яндекс.Вебмастері.
Allow
Деякі з пошуковики підтримують вказівку Allow
, яка є оберненою до вказівки Disallow
. Це корисно, коли ви хочете вказати пошуковику оминати всю директорію, але хочете, щоб деякі HTML документи знаходилися та індексувалися.
Для сумісності з усіма роботами, якщо ви хочете дозволити доступ до одного файлу в повністю забороненій директорії, вам слід помістити директиву Allow першою, а за нею вже Disallow, наприклад:
Allow: /directory1/myfile.html Disallow: /directory1/
Цей приклад забороняє все в директиві /directory1/ за винятком /directory1/myfile.html, до поки вказівки розташовані в правильному порядку. Порядок важливий тільки для тих роботів, що слідують стандарту; у випадку з Google або Bing, порядок не важливий.
Sitemap
Деякі пошуковики підтримують вказівку Sitemap
, що дозволяє використовувати декілька Sitemaps в одному файлі robots.txt в такій формі:
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml Sitemap: http://www.google.com/hostednews/sitemap_index.xml
Host
Деякі пошуковики (Yandex) підтримують директиву Host
, яка використовується на сайтах з багатьма дзеркалами, щоб вказати якийсь певний домен: Host: example.com Або альтернативний: Host: www.example.com Зауважте: Це не підтримується всіма пошуковиками і, якщо і використовується, то має бути вказано внизу файлу robots.txt після директиви Crawl-delay
.
С 20 березня 2018 року Яндекс перестав враховувати директиву Host.
Примітки
- . Архів оригіналу за 17 липня 2020.
- . https://webmaster.yandex.ru (рос.). 15.02.2018. Архів оригіналу за 11 травня 2020. Процитовано 15.02.2018.
{{}}
:|first=
з пропущеним|last=
() - (рос.). Архів оригіналу за 17 травня 2021. Процитовано 17 травня 2021.
Див. також
- Security.txt
- Повне керівництво по використанню файлу Robots.txt. [ 21 листопада 2021 у Wayback Machine.]
Вікіпедія, Українська, Україна, книга, книги, бібліотека, стаття, читати, завантажити, безкоштовно, безкоштовно завантажити, mp3, відео, mp4, 3gp, jpg, jpeg, gif, png, малюнок, музика, пісня, фільм, книга, гра, ігри, мобільний, телефон, android, ios, apple, мобільний телефон, samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Інтернет
Standart vinyatkiv dlya robotiv takozh vidomij yak protokol vinyatkiv dlya robotiv abo prosto robots txt ce standartnij sposib komunikaciyi vebsajtiv z poshukovimi robotami ta inshimi robotami Standart viznachaye yak povidomiti vebrobota pro te yaki chastini vebsajtu ne povinni buti obrobleni abo proskanovani Roboti chasto vikoristovuyutsya poshukovimi sistemami shob vstanoviti kategoriyu sajtu Ne vsi roboti spivpracyuyut z danim standartom napriklad en en shkidlivi programi i roboti sho skanuyut na urazlivosti mozhut navpaki pochati z tih chastin vid yakih yim skazano trimatisya ostoron Hocha standart i vidriznyayetsya vid Sitemaps ale mozhe vikoristovuvatisya v poyednanni z nim IstoriyaStandart buv zaproponovanij pri roboti na v lyutomu 1994 roku Charlz Stross stverdzhuye sho ce vin sprovokuvav Kostera do stvorennya ideyi robots txt pislya togo yak vin napisav nekorektno pracyuyuchij veboglyadach sho viklikalo vipadkovu DoS ataku na server Kostera Vin shvidko stav standartom de fakto yakomu ninishni ta majbutni poshukovi roboti povinni sliduvati bilshist vikonala u tomu chisli v poshukovih sistemah takih yak WebCrawler Lycos ta AltaVista Pro standartKoli vlasniki sajtiv hochut dati vkazivki poshukovim robotam voni pomishayut tekstovij fajl robots txt v korin yihnogo sajtu e g https www example com robots txt Cej fajl mistit vkazivki v specifichnomu formati divis priklad nizhche Roboti yaki pracyuyut z cim standartom namagayutsya otrimati cej fajl i prochitati vkazivki v nomu pered tim yak otrimayut bud yakij inshij fajl z vebsajtu Yaksho fajl ne isnuye poshukovi roboti vvazhayut sho vlasnik ne bazhaye nadavati bud yakih konkretnih instrukcij ta proglyadayut ves sajt robots txt fajl na vebsajti funkcionuvatime yak vkazivka robotam ignoruvati pevni fajli abo katalogi pri skanuvanni sajtu Ce mozhe buti vikoristano dlya zberezhennya osobistoyi informaciyi vid poshukovih sistem abo yaksho vmist pevnogo katalogu mozhe buti nepravilno interpretovanij abo ne pidhodit do osnovnoyi kategoriyi sajtu Abo yaksho yakijs dodatok maye pracyuvati tilki z pevnimi danimi Posilannya na storinki v spisku robots txt vse she mozhut z yavlyatisya v rezultatah poshuku yaksho voni priv yazani z storinok yaki proglyadati dozvoleno Fajl robots txt pokrivaye tilki odne pohodzhennya Dlya vebsajtiv z bagatma subdomenami kozhen maye mati vlasnij robots txt fajl Yaksho example com maye fajl robots txt a a example com ni to pravila yaki vikoristovuyutsya dlya example com ne budut vikoristovuvatisya na a example com Takozh kozhen protokol ta port maye mati svij vlasnij robots txt fajl http example com robots txt ne bude zastosovanij na https example com 8080 abo https example com Bagato osnovnih poshukovih sistem takih yak Ask AOL Baidu Bing Google Yahoo ta Yandex sliduyut comu standartu Fajl robots txt vstanovlyuye pravila skanuvannya sajtu dlya poshukovih robotiv poshukovih sistem Pered tim yak zdijsniti analiz sajtu poshukovi roboti vikonuyut perevirku cogo fajlu Zavdyaki takij proceduri voni mozhut pidvishiti efektivnist skanuvannya i zaoshaditi svoyi resursi BezpekaPopri vikoristannya terminiv dozvoliti i zaboroniti protokol ye suto konsultativnij i spirayetsya na chesnist vebrobotiv Shkidlivi vebroboti navryad chi budut sliduvati robots txt deyaki mozhut navit navpaki vikoristovuvati robots txt yak pidkazku shob znajti zaboroneni posilannya i perejti bezposeredno do nih U konteksti robots txt fajli bezpeka cherez obmezhennya ne rekomenduyetsya yak tehnika bezpeki PrikladiCej priklad govorit vsim robotam sho voni mozhut pereglyadati vsi fajli cherez znak dostupu dlya vsih ta Disallow vkazivka yaka nemaye znachen Ce znachit sho zhodna storinka ne ye zaboronenoyu User agent Disallow Takij zhe rezultat mozhe buti dosyagnutij porozhnim abo vzagali vidsutnim fajlom robots txt Cej priklad govorit vsim robotam trimatisya podali vid vsogo sajtu User agent Disallow A cej priklad govorit vsim robotam ne zahoditi v tri katalogi User agent Disallow cgi bin Disallow tmp Disallow junk Cej priklad vkazuye vsim robotam trimati podali vid odnogo pevnogo fajlu User agent Disallow directory file html Zauvazhte sho vsi inshi fajli v comu katalozi budut dostupni Cej priklad zaboronyaye dostup do sajtu tilki pevnomu robotu User agent BadBot zamistiti BadBot faktichnim botom koristuvacha Disallow Cej priklad govorit dvom pevnim robotam ne zahoditi do pevnih katalogiv User agent BadBot zamistiti BadBot faktichnim botom koristuvacha User agent Googlebot Disallow private Priklad yakij pokazuye yak mozhut buti vikoristani komentari Komentar pishetsya pislya simvolu Simvol pishetsya na pochatku ryadka abo pislya vkazivok User agent vidpovidaye vsim robotam Disallow vkazuye vid chogo trimatisya podali Takozh mozhlivo pererahuvati bagato robotiv z yihnimi vlasnimi pravilami Danij ryadok viznachaye dostup poshukovim sistemam Dekilka sajtiv takih yak Google pidtrimuyut dekilka ryadkiv agentiv sho dozvolyaye operatoru zaboronyati dostup pidgrupi svoyih servisiv z vikoristannyam konkretnih ryadkiv koristuvackogo agenta Priklad sho demonstruye kilka agentiv User agent googlebot Vsi servisi Google Disallow private zaboroniti cej katalog User agent googlebot news Tilki servis novin Disallow zaboroniti skriz User agent Bud yakij robot Disallow something zaboroniti cej katalogNestandartni rozshirennyaCrawl delay Crawl delay znachennya yake vkazuye poshukovikam zatrimku dlya povtornogo zavantazhennya storinki Oskilki ce znachennya ne ye chastinoyu standartu to i jogo interpretaciya zalezhit vid botiv yakimi vono zchituyetsya Yandex interpretuye crawl delay yak kilkist sekund yaki potribno zachekati pered povtornim poshukom Bing interpretuye yak rozmir chasovogo vikna vid 1 do 30 sekund protyagom yakogo zajde na sajt tilki raz User agent Crawl delay 10 Z 15 lyutogo 2018 roku Yandeks perestav vrahovuvati direktivu Crawl delay Shob zadati shvidkist z yakoyu roboti budut zavantazhuvati storinki sajtu vikoristovujte shvidkist obhodu sajtu u Yandeks Vebmasteri Allow Deyaki z poshukoviki pidtrimuyut vkazivku Allow yaka ye obernenoyu do vkazivki Disallow Ce korisno koli vi hochete vkazati poshukoviku ominati vsyu direktoriyu ale hochete shob deyaki HTML dokumenti znahodilisya ta indeksuvalisya Dlya sumisnosti z usima robotami yaksho vi hochete dozvoliti dostup do odnogo fajlu v povnistyu zaboronenij direktoriyi vam slid pomistiti direktivu Allow pershoyu a za neyu vzhe Disallow napriklad Allow directory1 myfile html Disallow directory1 Cej priklad zaboronyaye vse v direktivi directory1 za vinyatkom directory1 myfile html do poki vkazivki roztashovani v pravilnomu poryadku Poryadok vazhlivij tilki dlya tih robotiv sho sliduyut standartu u vipadku z Google abo Bing poryadok ne vazhlivij Sitemap Deyaki poshukoviki pidtrimuyut vkazivku Sitemap sho dozvolyaye vikoristovuvati dekilka Sitemaps v odnomu fajli robots txt v takij formi Sitemap http www gstatic com s2 sitemaps profiles sitemap xml Sitemap http www google com hostednews sitemap index xml Host Deyaki poshukoviki Yandex pidtrimuyut direktivu Host yaka vikoristovuyetsya na sajtah z bagatma dzerkalami shob vkazati yakijs pevnij domen Host example com Abo alternativnij Host www example com Zauvazhte Ce ne pidtrimuyetsya vsima poshukovikami i yaksho i vikoristovuyetsya to maye buti vkazano vnizu fajlu robots txt pislya direktivi Crawl delay S 20 bereznya 2018 roku Yandeks perestav vrahovuvati direktivu Host Primitki Arhiv originalu za 17 lipnya 2020 https webmaster yandex ru ros 15 02 2018 Arhiv originalu za 11 travnya 2020 Procitovano 15 02 2018 a href wiki D0 A8 D0 B0 D0 B1 D0 BB D0 BE D0 BD Cite web title Shablon Cite web cite web a first z propushenim last dovidka ros Arhiv originalu za 17 travnya 2021 Procitovano 17 travnya 2021 Div takozhSecurity txt Povne kerivnictvo po vikoristannyu fajlu Robots txt 21 listopada 2021 u Wayback Machine