Sledujeme nejnovější trendy v marketingu a baví nás o tom psát

28.8.2012

Robots.txt - omezení přístupu vyhledávačů

Soubor robots.txt definuje omezení přístupu robotů vyhledávačů k webu. To tedy platí i pro roboty procházející vaše internetové stránky. Roboti před přístupem kontrolují, zda existuje soubor robots.txt. Tak rozpoznají, zda mají přístup do všech částí webu a také případně kam je jim přístup zamítnut.

Umístění Vytvoření souboru Zástupné znaky Cesta k sitemap.xml


Robots.txtTextový soubor robots.txt je nutný v případě, pokud se na internetových stránkách nachází obsah, který by neměl být indexovaný (zaznamenaný) vyhledávači. Musí být umístěn v kořenovém adresáři webu. Neexistující nebo prázdný soubor robots.txt znamená, že vyhledávač může stránky indexovat bez omezení. Před zápisy by měla proběhnout analýza URL, aby nevzniklo více škody než užitku.

Příklad umístění:

http://www.seznam.cz/robots.txt

Vytvoření souboru robots.txt:

Nejjednodušší varianta souboru robots.txt využívá dvě pravidla:

User-agent: definice vyhledávače, na něhož se vztahuje(í) následující pravidlo(a)
Disallow: adresa URL, kterou chcete blokovat (verze s * nefungují na všechny roboty)

Do jedné položky můžete zahrnout více řádků Disallow a více řádků robotů User-agent.

Každá část v souboru robots.txt je samostatná. Příklad:

  • User-agent: * 
  • Disallow: /adresar1/ 
  • User-Agent: Googlebot
  • Disallow: /adresar2/

Pro vyhledávač Googlebot jsou blokovány pouze adresy URL odpovídající vzoru /adresar2/.

User-agent: *

Položku User-agent: * můžete zapsat tak, aby se vztahovala na konkrétní vyhledávač nebo ve většině případů na všechny vyhledávače. Pak zápis v robots.txt vypadá takto:

User-agent: *

Možností definice robota vyhledávačů v robots.txt je například Seznambot, Googlebot, Mediapartners-Google, Googlebot-Image, MJ12bot a další.

Disallow:

Pro zablokování celého webu pro roboty použijte lomítko.

Disallow: /

Pro blokování adresáře a všeho, co obsahuje, zadejte lomítko za adresář.

Disallow: /adresar-X/

Pro blokování stránky uveďte příslušnou stránku.

Disallow: /skryty-soubor.html

Pro odebrání konkrétního obrázku z Vyhledávání obrázků Google definujte cestu k souboru spolu s definicí robota pro obrázky.

User-agent: Googlebot-Image
Disallow: /obrazky/psi.jpg

Pro odebrání všech obrázků z Vyhledávání obrázků Google zadejte robota a lomítko.

User-agent: Googlebot-Image
Disallow: /

Pro blokaci souborů určitého typu (např. soubory .jpg) zadejte řetězec platný pro všechny vyhledávače.

Disallow: /*.jpg$

Příkazy robots.txt rozlišují malá a velká písmenka.

Příklad příkaz Disallow: /soubor.php

  • blokuje soubor http://www.example.cz/soubor.php
  • povolí soubor http://www.example.cz/Soubor.php

Zástupné znaky v robots.txt

* nahrazuje libovolný řetězec znaků (může se vyskytovat v pravidle vícekrát)
$ znamená konec URL adresy (interpretuje se stejně u všech pravidel)


Pro přiřazení posloupnosti znaků použijte hvězdičku *. K zablokování přístupu do všech podadresářů začínajících slovem tajne použijte v robots.txt následující zápis:

Disallow: /tajne*/

Pro zablokování indexace všech URL adres s otazníkem ? použijte následující položku:

Disallow: /*?

Pro blokování adres se specifikovanými koncovými znaky použijte znak $. Následující zápis blokuje všechny soubory .doc:

Disallow: /*.doc$

Přiřazování zástupných znaků je možné v souboru robots.txt používat v kombinaci s příkazem Allow. Tedy naopak povolení řady URL.

Definice cesty k sitemap.xml

Stejně jako soubor robots.txt slouží robotům vyhledávačů i soubor sitemap.xml. Určuje, které stránky webu by měly být indexovány. K tomu je dobré robotům oznámit, kde ji má najít (tím spíše pokud není URL adresa standartní). I k tomu slouží zápis v souboru robots.txt.

Příklad zápisu sitemap.xml v souboru robots.txt

URL se sitemap.xml musí být v souboru robots.txt zadána absolutně.

Sitemap: http://www.it-logica.cz/sitemap.xml

Doporučení:
Po vytvoření souboru robots.txt je dobré přistoupit k validaci souboru. V případě, pokud chcete řešení od specialisty, pak nás neváhejte kontaktovat!

28.8.2012 Ivo Kylián 0

comments powered by Disqus