Scrape site

Z Seopedia
Verze z 23. 10. 2014, 09:43, kterou vytvořil Admin (diskuse | příspěvky) (Proces scrapování)

Přejít na: navigace, hledání

Za Scrape site se označují stránky, které jsou vytvořeny úplně anebo z části obsahu jiných stránek. Nemusí se vždy jednat přímo o duplicitu, často jsou poupraveny pomocí nějakého algoritmu. Například některá slova nahradí synonyma, věty jsou rozděleny do souvětí, anebo z využitím dostatečně velkého slovníku může být celý text převeden do jiného jazyka a pak zpět. Často jsou také "scrapované" weby ručně upraveny člověkem, aby jevily známky odlišnosti.

Nejčastějším zdrojem textů scraper site jsou RSS kanály webů 2.0. Převážně se vybírají články, kde se vyskytují dobře placená klíčová slova v PPC. Dále jsou zneužívány open source zdroje a texty pod různými volnými licencemi. Vykrádáním textů trpí zvláště Wikipedia.

Proces scrapování

Základem je identifikace potřebných dat. Poměrně často se k tomu používají služby pro agregování zpráv anebo přímo vyhledávače. Například když potřebuji data k tématu SEO zadám do Google klíčové slovo SEO. Následně si stáhnu všechny odkazy z výsledků, z kterých pak udělám databázi.

Z vytvořené databáze odkazů se pak postupně berou výsledky a robot zjistí zdali se na nich opravdu nachází potřebný text. Toto lze provádět ručně anebo automaticky pomocí regulérních výrazů

Samotné stahování se provádí nejčastěji pomocí crawlovacího robota. Ten může být součástí prohlížeče, čímž jednoduše maskuje svou činnost a člověk může jej může směřovat. Častěji se ale jedná o software, který prochází určitý web na základě interních odkazů a stahuje z něj celé kusy kódu.

Následně jsou texty zpracovány a připraveny pro publikování.

Legální stahování obsahu

Některé projekty, jako Wikipedia, umožňují komukoliv stáhnout a využívat jejich obsah. Takto vytvořené weby jsou s použitím všech náležitostí naprosto legální a často dobrým zdrojem návštěvnosti, vzhledem k nízkým vynaloženým nákladům.

Dopad na SEO

Ve většině případů jsou výsledky kopiemi a vyhledávače je dokáži snadno odhalit. Trpí tak na algoritmické penalizace jako Google Panda. Z dlouhodobého pohledu se však texty mění anebo zanikají a tak dostatečně dlouho žijící scrape site mohou mít i nějakou návštěvnost na long tail klíčová slova.

Nejčastěji se však používají na prodej odkazů. Rozhodně byste ale takovéto odkazy neměli kupovat, protože vám poškodí odkazový profil. Scrape site je dobré se v současné době vyhnout celkým obloukem.