GoogleBot
GoogleBot je robot (crawler), jehož úkolem je procházet internet a sbírat dokumenty. Jakmile je získá, předá jej dále, kde po zpracování a nakonec i zařazeny do vyhledávání (do indexu).
GoogleBot se identifikuje pomocí user-agent jako googlebot. Google jednou za čas mění IP adresu z které na stránky přistupuje.
Předpokládá se, že dokáže spouštět javascript, tak aby měl přehled, co se na stránce nachází a v jakém rozložení. Google ovšem trvá na tom, že tato schopnost je značně limitována a neměli bychom na ní spoléhat. Proběhlo několik testů, které prokázali dokonce, že bere v potaz Ajax.
Jak se na stránku může dostat GoogleBot
Nejčastěji je to z odkazu, který se nachází na jiné stránce, kde je už indexována.
Stránky, na které nevede žádný odkaz by měl majitel přidat do fronty na procházení GoogleBotem manuálně a to:
- Přes formulář na adrese https://www.google.com/webmasters/tools/submit-url.
- Přidáním sitemap do Google Webmaster Tools.
Nepotvrzené metody
Mnoho majitelů stránek, nikdy stránky do Google nepřidali a přesto se na nich ukázal GoogleBot. Proto vzniklo hned několik spíše konspiračních teorii.
Google se o nových stránkách dozví:
- z Google Analytics a Google AdSense.
- pokud někdo vaši stránku nasdílí přes Google plus. Zde je ovšem nutno podotknout, že v podstatě vznikne odkaz i když má atribut nofollow.
- když je registrována nová doména (testy tuto teorii neprokázali).
Omezení
Googlebot má určitá technická omezení.
- Maximální množství stažených dat na jedné stránce je 10 MB