Robots.txt

Z Seopedia
Přejít na: navigace, hledání

Robots.txt protocol anebo také Robot Exclusion Standard/Protocol je způsob jak může webová stránka komunikovat z roboty (crawlery). Nejčastěji se jedná o roboty vyhledávačů, kteří pomocí informací v souboru robots.txt zjistí jak mají k datům na webu přistupovat.

Tento protokol podporují všechny velké vyhledávače včetně Google, Seznam, Bing, Yahoo!, Ask, AOL, Yandex anebo Baidu.

Historie

Standard pro robots.txt navrhl Martijn Koster v únoru 1994, když pracoval pro Nexor. Údajně byl vytvořen na základě provokace Charlese Strosse, který vytvořil nevychovaného crawlera. Jeho počínání způsobilo přetížení serveru, podobně jako DoS (Denial of Service) útok na Kosterův server.

Během poměrně krátké doby se stal robots.txt uznávaným standardem. Řídili se ním i roboti jako WebCrawler, Lycos anebo AltaVista.

Základy standardu

Pokud chcete ovlivnit chování robotů, stačí umístit soubor robots.txt do hlavního adresáře. Tedy něco.cz/robots.txt. Do tohoto souboru se pak umísťují instrukce pro roboty. Ti z nich, kteří jsou ochotni se řídit pravidly, si nejdříve stáhnou tento soubor a na základě instrukcí v něm se pak rozhodnou zdali se jimi budou řídit.

V krátkosti se jedná o soubor instrukcí, které říkají co nemají roboti procházet. Ve většině případů se jedná o adresáře, které mají být před vyhledávači skryté anebo nejsou vhodné pro indexaci.

Každá subdoména musí mít v hlavním adresáři svůj vlastní robots.txt. Z jedné domény není možné pomocí robots.txt ovlivnit působení robota na jiné doméně či subdoméně.

Nevýhody

Instrukce v Robots.txt se může každý robot rozhodnout ignorovat. V podstatě má dnes spíše účel doporučení.

Velkou nevýhodou je, že může značně ulehčit práci potenciálnímu útočníkovi. Pokud do robots.txt napíšeme cestu k adresáři, kde se nachází administraci usnadníme mu tím práci.

Pro robots.txt neexistuje žádný oficiální RFC standard. Byl vytvořen členy robots mailing list v roce 1994.

Příklady a fungování

je třeba doplnit :)

Nestandardní rozšíření

  • Crawl-delay
  • Allow
  • Sitemap
  • Host