Scrape site: Porovnání verzí

Z Seopedia
Přejít na: navigace, hledání
(Proces scrapování)
 
Řádka 1: Řádka 1:
 
Za '''Scrape site''' se označují stránky, které jsou vytvořeny úplně anebo z části obsahu jiných stránek. Nemusí se vždy jednat přímo o [[duplicita|duplicitu]], často jsou poupraveny pomocí nějakého [[algoritmu]]. Například některá slova nahradí synonyma, věty jsou rozděleny do souvětí, anebo z využitím dostatečně velkého slovníku může být celý text převeden do jiného jazyka a pak zpět. Často jsou také "scrapované" weby ručně upraveny člověkem, aby jevily známky odlišnosti.
 
Za '''Scrape site''' se označují stránky, které jsou vytvořeny úplně anebo z části obsahu jiných stránek. Nemusí se vždy jednat přímo o [[duplicita|duplicitu]], často jsou poupraveny pomocí nějakého [[algoritmu]]. Například některá slova nahradí synonyma, věty jsou rozděleny do souvětí, anebo z využitím dostatečně velkého slovníku může být celý text převeden do jiného jazyka a pak zpět. Často jsou také "scrapované" weby ručně upraveny člověkem, aby jevily známky odlišnosti.
  
Nejčastějším zdrojem textů scraper site jsou RSS kanály webů 2.0. Převážně se vybírají články, kde se vyskytují dobře placená klíčová slova v PPC. Dále jsou zneužívány open source zdroje a texty pod různými volnými licencemi. Vykrádáním textů trpí zvláště Wikipedia.  
+
Nejčastějším zdrojem textů scrape site jsou [[RSS]] kanály [[web 2.0|webů 2.0]]. Převážně se vybírají články, kde se vyskytují dobře placená klíčová slova v [[PPC]]. Dále jsou zneužívány open source zdroje a texty pod různými volnými licencemi. Vykrádáním textů trpí zvláště [[Wikipedia]].  
  
Modernější scraper site dokáží pomocí sofistikovaného software na úpravu textů vytvářet z originálních textů poměrně zdařilé kopie, které často bez problémů projdou jako unikátní do vyhledávačů. Využívá se technologie známé z article spinning. Dále články doplňují o ilustrační obrázky, videa z YouTube a komentáře ze sociálních sítí. Jako celek dokáží poměrně slušně fungovat a to i přes snahu Google.  
+
Modernější scrape site dokáží pomocí sofistikovaného software na úpravu textů vytvářet z originálních textů poměrně zdařilé kopie, které často bez problémů projdou jako unikátní do vyhledávačů. Využívá se technologie známé z [[article spinning]]. Dále články doplňují o ilustrační obrázky, videa z YouTube a komentáře ze sociálních sítí. Jako celek dokáží poměrně slušně fungovat a to i přes snahu [[Google]].  
  
 
== Proces scrapování ==
 
== Proces scrapování ==
Řádka 20: Řádka 20:
 
Ve většině případů jsou výsledky kopiemi a vyhledávače je dokáži snadno odhalit. Trpí tak na algoritmické penalizace jako [[Google Panda]]. Z dlouhodobého pohledu se však texty mění anebo zanikají a tak dostatečně dlouho žijící '''scrape site''' mohou mít i nějakou návštěvnost na [[long tail]] [[klíčové slovo|klíčová slova]].
 
Ve většině případů jsou výsledky kopiemi a vyhledávače je dokáži snadno odhalit. Trpí tak na algoritmické penalizace jako [[Google Panda]]. Z dlouhodobého pohledu se však texty mění anebo zanikají a tak dostatečně dlouho žijící '''scrape site''' mohou mít i nějakou návštěvnost na [[long tail]] [[klíčové slovo|klíčová slova]].
  
Nejčastěji se však používají na prodej [[odkazy|odkazů]]. Rozhodně byste ale takovéto odkazy neměli kupovat, protože vám poškodí [[odkazový profil]]. '''Scrape site''' je dobré se v současné době vyhnout celkým obloukem.
+
Nejčastěji se však používají na prodej [[odkazy|odkazů]]. Rozhodně byste ale takovéto odkazy neměli kupovat, protože vám poškodí [[odkazový profil]]. '''Scrape site''' je dobré se v současné době vyhnout velkým obloukem.
 +
 
 +
== Využití ==
 +
'''Scrape site''' jsou často nižší úrovně [[link pyramid|pyramid]] či jiných [[odkazové schéma|odkazových schémat]], které předávají [[link juice]] do vyšších pater, ty jsou už vytvářeny s přičiněním člověka.

Aktuální verze z 23. 10. 2014, 10:46

Za Scrape site se označují stránky, které jsou vytvořeny úplně anebo z části obsahu jiných stránek. Nemusí se vždy jednat přímo o duplicitu, často jsou poupraveny pomocí nějakého algoritmu. Například některá slova nahradí synonyma, věty jsou rozděleny do souvětí, anebo z využitím dostatečně velkého slovníku může být celý text převeden do jiného jazyka a pak zpět. Často jsou také "scrapované" weby ručně upraveny člověkem, aby jevily známky odlišnosti.

Nejčastějším zdrojem textů scrape site jsou RSS kanály webů 2.0. Převážně se vybírají články, kde se vyskytují dobře placená klíčová slova v PPC. Dále jsou zneužívány open source zdroje a texty pod různými volnými licencemi. Vykrádáním textů trpí zvláště Wikipedia.

Modernější scrape site dokáží pomocí sofistikovaného software na úpravu textů vytvářet z originálních textů poměrně zdařilé kopie, které často bez problémů projdou jako unikátní do vyhledávačů. Využívá se technologie známé z article spinning. Dále články doplňují o ilustrační obrázky, videa z YouTube a komentáře ze sociálních sítí. Jako celek dokáží poměrně slušně fungovat a to i přes snahu Google.

Proces scrapování

Základem je identifikace potřebných dat. Poměrně často se k tomu používají služby pro agregování zpráv anebo přímo vyhledávače. Například když potřebuji data k tématu SEO zadám do Google klíčové slovo SEO. Následně si stáhnu všechny odkazy z výsledků, z kterých pak udělám databázi.

Z vytvořené databáze odkazů se pak postupně berou výsledky a robot zjistí zdali se na nich opravdu nachází potřebný text. Toto lze provádět ručně anebo automaticky pomocí regulérních výrazů

Samotné stahování se provádí nejčastěji pomocí crawlovacího robota. Ten může být součástí prohlížeče, čímž jednoduše maskuje svou činnost a člověk může jej může směřovat. Častěji se ale jedná o software, který prochází určitý web na základě interních odkazů a stahuje z něj celé kusy kódu.

Následně jsou texty zpracovány a připraveny pro publikování.

Legální stahování obsahu

Některé projekty, jako Wikipedia, umožňují komukoliv stáhnout a využívat jejich obsah. Takto vytvořené weby jsou s použitím všech náležitostí naprosto legální a často dobrým zdrojem návštěvnosti, vzhledem k nízkým vynaloženým nákladům.

Dopad na SEO

Ve většině případů jsou výsledky kopiemi a vyhledávače je dokáži snadno odhalit. Trpí tak na algoritmické penalizace jako Google Panda. Z dlouhodobého pohledu se však texty mění anebo zanikají a tak dostatečně dlouho žijící scrape site mohou mít i nějakou návštěvnost na long tail klíčová slova.

Nejčastěji se však používají na prodej odkazů. Rozhodně byste ale takovéto odkazy neměli kupovat, protože vám poškodí odkazový profil. Scrape site je dobré se v současné době vyhnout velkým obloukem.

Využití

Scrape site jsou často nižší úrovně pyramid či jiných odkazových schémat, které předávají link juice do vyšších pater, ty jsou už vytvářeny s přičiněním člověka.