Vyhledávač

Z Seopedia
Přejít na: navigace, hledání

Vyhledávač je komplexní software jehož účelem je vyhledávat informace na internetu. Vyhledané informace jsou ve většině případů prezentovány jako stránka výsledků vyhledávače (anglicky Search engine results page, zkráceně SERP). Vyhledávače se mohou specializovat na různé druhy dokumentů. Například obrázky, multimédia anebo dokumenty. Většina vyhledávačů získává data pomocí data miningu z různých databází anebo procházení (crawlování) webových stránek.

Historie

Zahraniční vyhledávače

Archie

Jako první internetový vyhledávač by se dal označit Archie. V roce 1990 jej vytvořili studenti Alan Emtage, Bill Heelan a J. Peter Deutsch. Jednou za měsíc si stáhl seznam souborů přes veřejné anonymní FTP servery. Na jejichž základě vytvořil databázi názvů souboru. Ovšem Archie neprocházel obsah těchto souborů automaticky. Vzhledem k množství informací se to dalo udělat ručně.

W3Catalog

2. září 1993 byl vytvořen W3Catalog. Stál za ním Oscar Nierstrasz. Zajímavé na něm bylo, že místo crawlování webu stahoval obsah už existujících katalogů, které v té době byly většinou manuálně tříděné. W3Catalog jejich obsah stáhl, předělal jejich obsah, aby se daly výsledky dynamicky generovat pro využití v dalších projektech. Později se požíval jako rozšíření na Plexus web serverech v Perlu.

W3Catalog ukončil svou činnost 8. prosince 1996.

Wanderer

V červnu 1993 Matthew Gray z MIT naprogramoval zřejmě prvního automatického internetového crawlera na světě. Byl napsán v Perl a celý jeho název byl World Wide Web Wanderer. Vytvářel indexy, které se nazývaly Wandex. Jeho úkolem bylo změřit velikost World Wide Web, což také úspěšně dělal až do roku 1995.

Aliweb

Aliweb (Archie Like Indexing for the WEB), je považován za přímého předchůdce dnešních vyhledávačů. Veřejnosti byl představen v květnu 1994 (samotný princip crawlování byl však vytvořen už březnu 1993). Vytvořil jej Martijn Koster. Měl vlastního crawlovacího robota, ovšem ten fungoval jen na zavolání. Webmáster nejdříve musel vložit přesné umístění stránek do Aliweb, poté přišel robot a stáhl si některé údaje. Ovšem vzhledem k nutnosti spolupráce s webmástry, se nikdy nestal Aliweb nějak významným.

Martijn Koster se později zasadil o přijetí standardů aplikovaných v robots.txt.

JumpStation

JumpStation byl spuštěn v prosinci 1993. V podstatě už zvládal dnešní koncept, tedy crawlování, indexování a hledání. Ovšem neměl dostatečné zdroje a tak v podstatě indexoval jen titulek a nadpisy na stránkách.

WebCrawler

V roce 1994 přišel WebCrawler. První vyhledávač, který vytvářel indexy z textů. Prostě už zvládal vyhledávat texty nacházející se na stránkách. Definoval nový standard pro budoucí vyhledávače. Byl také prvním, který se stal opravdu zmámím i pro širokou veřejnost. Jeho přímím komerčním konkurentem se stal Lycos.

Google

Google přichází v roce 1998 a okopíroval od malé společnosti Goto.com model prodávat hledané fráze. Toto rozhodnutí mělo v podstatě historické důsledky. Stal se z toho totiž jeden z nejvýnosnějších obchodních modelů na světě.

České vyhledávače

Jak vyhledávače fungují

Momentální generace vyhledávačů je postavena na následujícím modelu: 1. Web crawling 2. Indexování 3. Vyhledávání

Tento model definoval vyhledávač JumpStation v roce 1993 a jako první realizoval vyhledávač WebCrawler v roce 1994. Ačkoliv od té doby uteklo už hodně času pořád se používá.

Nejdříve se crawler postará o získání dat z HTML stránky. Následně jsou tato data setříděna a zpracována pro snadnější práci na serveru vyhledávače. Pokud obsahují informace, které požaduje uživatel jsou mu pak prezentována v SERP podle algoritmu.

Samozřejmě v reálu je to velice náročný a nákladný proces. Vyhledávače tak využívají různých technologii aby se kdekoliv daly ušetřit serverové prostředky.