Sitemap: Porovnání verzí
(Založena nová stránka: '''Sitemap''' je protokol pro komunikaci s vyhledávači. Jedná se o zápis do souboru, jehož obsah má nasměřovat crawlovací roboty vyhledáva…) |
(Žádný rozdíl)
|
Aktuální verze z 29. 8. 2013, 21:27
Sitemap je protokol pro komunikaci s vyhledávači. Jedná se o zápis do souboru, jehož obsah má nasměřovat crawlovací roboty vyhledávačů na jednotlivé stránky webu, které chcete aby vyhledávač indexoval. Nejčastěji je s příponou .xml ovšem není to pravidlem ani podmínkou. Některé CMS jej vytváří s koncovkou .php popřípadě .html. Implicitně jej však vyhledávače hledají v kořenovém adresáři webu jako sitemap.xml.
V minulosti byl Sitemap určen, aby šetřil náklady vyhledávačů. V dnešní době už jsou vyhledávače inteligentní a náklady na procházení i rozsáhlejších webů stále klesají. I tak se ale najdou weby, pro které je sitemap nezbytnou součástí. Zvláště se jedna o weby:
- kde jsou odkazy nahrazovány například Flash, Silverlight anebo Ajax, takže jejich procházení je značně komplikované.
- kde není dobrá struktura odkazů a některé stránky přes ní nejsou dostupné.
- kde jsou jednotlivé podstránky generovány na základě určitých událostí, které procházecí robot není schopný nasimulovat.
Sitemap by jsme měli brát jako pomůcku pro vyhledávače. Většina z nich je využívá pouze pro kontrolu anebo s nimi porovnává jejich vlastní už nashromážděná data.
Historie
Sitemap představil Google v roce 2005 ve verzi 0.84. MSN a Yahoo se přidali o rok později.
V roce 2007 byla přidána podpora Sitemap přes robots.txt.
Formát
Sitemap je postavený na XML. Pros správné použití musí být použito kódování UTF-8. Většina vyhledávačů ovšem podporuje jen jednoduchý seznam adres URL, kdy je každá na samostatném řádku.
Ukázka souboru sitemap.xml
<?xml version="1.0" encoding="utf-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://domena.tld/adresar/stranka.php</loc> <lastmod>2013-08-29</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> </urlset>
Vysvětlení jednotlivých elementů
Element | Vyžadováno | Popis |
---|---|---|
<urlset> | Ano | Popis formátování dat. Jedná se o párový element. Všechno musí být uzavřeno v něm. |
<url> | Ano | Rodičovský element |
<loc> | Ano | Tato hodnota obsahuje celou adresu včetně protokolu (http/https). Adresa by měla mít přesný formát URL, kde se nachází stránka. Tedy aby hlavička vrátila kód 200. Vyhněte se přesměrování. Pozor maximální délka řetězce je 2048 znaků. |
<lastmod> | Ne | Datum, popřípadě i čas poslední modifikace stránky ve formátu ISO 8601 (celý formát je RRRR-MM-DDTHH:MM:SS+HH:MM)standard však dovoluje zapsat jen datum RRRR-MM-DD) |
<changefreq> | Ne | Udává frekvenci změny stránky. Ačkoliv si vyhledávače udávají vlastní frekvenci a není nutné tento element používat, v případě always a never definujeme i význam stránky.
|
<priority> | Ne | Jedná se o popis priority pro procházení. Nikoliv důležitost, ale aktuálnost. Hodnota se udává od nejnižší 0.0 do nejvyšší 1.0. Pokud priorita není vyplněná předpokládá se, že je 0.5. Pokud dáte všem stránkám 1 nezvýšíte rychlost procházení webu v rámci zbytku internetu. Je dobré s číslem nakládat jako prioritou v rámci své stránky. |
Sitemap index
Jeden soubor sitemap může mít maximálně 50 MB anebo 50 tisíc souborů. Proto lze použít více souborů k vytvoření indexu celého webu. Soubor, který takovýto seznam obsahuje se nazývá Sitemap index. Odkazuje se na něj ze souboru robots.txt následujícím způsobem:
Sitemap: http://domena.tld/sitemap_index.xml
Používá se vždy celá adresa.
Sitemap index nemůže obsahovat více než 50 tisíc odkazů na sitemapy a zároveň nemůže být větší než 10 MB. Maximální množství stránek, které je možné prostřednictvím sitemap předat vyhledávačům je tedy 2.500.000.000 (2,5 miliardy).
Příklad obsahu sitemap indexu
<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>http://domena.tld/sitemap1.xml.gz</loc> <lastmod>2013-08-29T18:23:17+00:00</lastmod> </sitemap> <sitemap> <loc>http://domena.tld/sitemap2.xml.gz</loc> <lastmod>2013-08-28</lastmod> </sitemap> </sitemapindex>