Sitemap

Z Seopedia
Verze z 29. 8. 2013, 20:27, kterou vytvořil Admin (diskuse | příspěvky) (Založena nová stránka: '''Sitemap''' je protokol pro komunikaci s vyhledávači. Jedná se o zápis do souboru, jehož obsah má nasměřovat crawlovací roboty vyhledáva…)

(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)
Přejít na: navigace, hledání

Sitemap je protokol pro komunikaci s vyhledávači. Jedná se o zápis do souboru, jehož obsah má nasměřovat crawlovací roboty vyhledávačů na jednotlivé stránky webu, které chcete aby vyhledávač indexoval. Nejčastěji je s příponou .xml ovšem není to pravidlem ani podmínkou. Některé CMS jej vytváří s koncovkou .php popřípadě .html. Implicitně jej však vyhledávače hledají v kořenovém adresáři webu jako sitemap.xml.

V minulosti byl Sitemap určen, aby šetřil náklady vyhledávačů. V dnešní době už jsou vyhledávače inteligentní a náklady na procházení i rozsáhlejších webů stále klesají. I tak se ale najdou weby, pro které je sitemap nezbytnou součástí. Zvláště se jedna o weby:

  • kde jsou odkazy nahrazovány například Flash, Silverlight anebo Ajax, takže jejich procházení je značně komplikované.
  • kde není dobrá struktura odkazů a některé stránky přes ní nejsou dostupné.
  • kde jsou jednotlivé podstránky generovány na základě určitých událostí, které procházecí robot není schopný nasimulovat.

Sitemap by jsme měli brát jako pomůcku pro vyhledávače. Většina z nich je využívá pouze pro kontrolu anebo s nimi porovnává jejich vlastní už nashromážděná data.

Historie

Sitemap představil Google v roce 2005 ve verzi 0.84. MSN a Yahoo se přidali o rok později.

V roce 2007 byla přidána podpora Sitemap přes robots.txt.

Formát

Sitemap je postavený na XML. Pros správné použití musí být použito kódování UTF-8. Většina vyhledávačů ovšem podporuje jen jednoduchý seznam adres URL, kdy je každá na samostatném řádku.

Ukázka souboru sitemap.xml

<?xml version="1.0" encoding="utf-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <url>
        <loc>http://domena.tld/adresar/stranka.php</loc>
        <lastmod>2013-08-29</lastmod>
        <changefreq>daily</changefreq>
        <priority>0.8</priority>
    </url>
</urlset>


Vysvětlení jednotlivých elementů

Element Vyžadováno Popis
<urlset> Ano Popis formátování dat. Jedná se o párový element. Všechno musí být uzavřeno v něm.
<url> Ano Rodičovský element
<loc> Ano Tato hodnota obsahuje celou adresu včetně protokolu (http/https). Adresa by měla mít přesný formát URL, kde se nachází stránka. Tedy aby hlavička vrátila kód 200. Vyhněte se přesměrování. Pozor maximální délka řetězce je 2048 znaků.
<lastmod> Ne Datum, popřípadě i čas poslední modifikace stránky ve formátu ISO 8601 (celý formát je RRRR-MM-DDTHH:MM:SS+HH:MM)standard však dovoluje zapsat jen datum RRRR-MM-DD)
<changefreq> Ne Udává frekvenci změny stránky. Ačkoliv si vyhledávače udávají vlastní frekvenci a není nutné tento element používat, v případě always a never definujeme i význam stránky.
  • hourly - stránku je třeba projít každou hodinu (například vlákno diskuzního fóra)
  • daily - stránku je třeba projít každý den (například titulní stránka blogu)
  • weekly - stránku je třeba projít každý týden (například stránka sekce magazínu)
  • monthly - stránku je třeba projít každý měsíc (například firemní stránka)
  • yearly - stránku je třeba projít každý rok
  • always - stránka se mění vždy po znovunačtení - například výstup vyhledávání, aktuální výsledky
  • never - stránka se nemění - používá se u archivovaných stránek, kde se nepředpokládá změna
<priority> Ne Jedná se o popis priority pro procházení. Nikoliv důležitost, ale aktuálnost. Hodnota se udává od nejnižší 0.0 do nejvyšší 1.0. Pokud priorita není vyplněná předpokládá se, že je 0.5. Pokud dáte všem stránkám 1 nezvýšíte rychlost procházení webu v rámci zbytku internetu. Je dobré s číslem nakládat jako prioritou v rámci své stránky.


Sitemap index

Jeden soubor sitemap může mít maximálně 50 MB anebo 50 tisíc souborů. Proto lze použít více souborů k vytvoření indexu celého webu. Soubor, který takovýto seznam obsahuje se nazývá Sitemap index. Odkazuje se na něj ze souboru robots.txt následujícím způsobem:

Sitemap: http://domena.tld/sitemap_index.xml

Používá se vždy celá adresa.

Sitemap index nemůže obsahovat více než 50 tisíc odkazů na sitemapy a zároveň nemůže být větší než 10 MB. Maximální množství stránek, které je možné prostřednictvím sitemap předat vyhledávačům je tedy 2.500.000.000 (2,5 miliardy).

Příklad obsahu sitemap indexu

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>http://domena.tld/sitemap1.xml.gz</loc>
    <lastmod>2013-08-29T18:23:17+00:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>http://domena.tld/sitemap2.xml.gz</loc>
    <lastmod>2013-08-28</lastmod>
  </sitemap>
</sitemapindex>