Scrape site
Za Scrape site se označují stránky, které jsou vytvořeny úplně anebo z části obsahu jiných stránek. Nemusí se vždy jednat přímo o duplicitu, často jsou poupraveny pomocí nějakého algoritmu. Například některá slova nahradí synonyma, věty jsou rozděleny do souvětí, anebo z využitím dostatečně velkého slovníku může být celý text převeden do jiného jazyka a pak zpět. Často jsou také "scrapované" weby ručně upraveny člověkem, aby jevily známky odlišnosti.
Nejčastějším zdrojem textů scrape site jsou RSS kanály webů 2.0. Převážně se vybírají články, kde se vyskytují dobře placená klíčová slova v PPC. Dále jsou zneužívány open source zdroje a texty pod různými volnými licencemi. Vykrádáním textů trpí zvláště Wikipedia.
Modernější scrape site dokáží pomocí sofistikovaného software na úpravu textů vytvářet z originálních textů poměrně zdařilé kopie, které často bez problémů projdou jako unikátní do vyhledávačů. Využívá se technologie známé z article spinning. Dále články doplňují o ilustrační obrázky, videa z YouTube a komentáře ze sociálních sítí. Jako celek dokáží poměrně slušně fungovat a to i přes snahu Google.
Proces scrapování
Základem je identifikace potřebných dat. Poměrně často se k tomu používají služby pro agregování zpráv anebo přímo vyhledávače. Například když potřebuji data k tématu SEO zadám do Google klíčové slovo SEO. Následně si stáhnu všechny odkazy z výsledků, z kterých pak udělám databázi.
Z vytvořené databáze odkazů se pak postupně berou výsledky a robot zjistí zdali se na nich opravdu nachází potřebný text. Toto lze provádět ručně anebo automaticky pomocí regulérních výrazů
Samotné stahování se provádí nejčastěji pomocí crawlovacího robota. Ten může být součástí prohlížeče, čímž jednoduše maskuje svou činnost a člověk může jej může směřovat. Častěji se ale jedná o software, který prochází určitý web na základě interních odkazů a stahuje z něj celé kusy kódu.
Následně jsou texty zpracovány a připraveny pro publikování.
Legální stahování obsahu
Některé projekty, jako Wikipedia, umožňují komukoliv stáhnout a využívat jejich obsah. Takto vytvořené weby jsou s použitím všech náležitostí naprosto legální a často dobrým zdrojem návštěvnosti, vzhledem k nízkým vynaloženým nákladům.
Dopad na SEO
Ve většině případů jsou výsledky kopiemi a vyhledávače je dokáži snadno odhalit. Trpí tak na algoritmické penalizace jako Google Panda. Z dlouhodobého pohledu se však texty mění anebo zanikají a tak dostatečně dlouho žijící scrape site mohou mít i nějakou návštěvnost na long tail klíčová slova.
Nejčastěji se však používají na prodej odkazů. Rozhodně byste ale takovéto odkazy neměli kupovat, protože vám poškodí odkazový profil. Scrape site je dobré se v současné době vyhnout velkým obloukem.
Využití
Scrape site jsou často nižší úrovně pyramid či jiných odkazových schémat, které předávají link juice do vyšších pater, ty jsou už vytvářeny s přičiněním člověka.