Robots.txt - omezení přístupu vyhledávačů
Soubor robots.txt definuje omezení přístupu robotů vyhledávačů k webu. To tedy platí i pro roboty procházející vaše internetové stránky. Roboti před přístupem kontrolují, zda existuje soubor robots.txt. Tak rozpoznají, zda mají přístup do všech částí webu a také případně kam je jim přístup zamítnut.
Umístění Vytvoření souboru Zástupné znaky Cesta k sitemap.xml
Textový soubor robots.txt je nutný v případě, pokud se na internetových stránkách nachází obsah, který by neměl být indexovaný (zaznamenaný) vyhledávači. Musí být umístěn v kořenovém adresáři webu. Neexistující nebo prázdný soubor robots.txt znamená, že vyhledávač může stránky indexovat bez omezení. Před zápisy by měla proběhnout analýza URL, aby nevzniklo více škody než užitku.
Příklad umístění:
http://www.seznam.cz/robots.txt
Vytvoření souboru robots.txt:
Nejjednodušší varianta souboru robots.txt využívá dvě pravidla:
User-agent: definice vyhledávače, na něhož se vztahuje(í) následující pravidlo(a)
Disallow: adresa URL, kterou chcete blokovat (verze s * nefungují na všechny roboty)
Do jedné položky můžete zahrnout více řádků Disallow a více řádků robotů User-agent.
Každá část v souboru robots.txt je samostatná. Příklad:
- User-agent: *
- Disallow: /adresar1/
- User-Agent: Googlebot
- Disallow: /adresar2/
Pro vyhledávač Googlebot jsou blokovány pouze adresy URL odpovídající vzoru /adresar2/.
User-agent: *
Položku User-agent: * můžete zapsat tak, aby se vztahovala na konkrétní vyhledávač nebo ve většině případů na všechny vyhledávače. Pak zápis v robots.txt vypadá takto:
User-agent: *
Možností definice robota vyhledávačů v robots.txt je například Seznambot, Googlebot, Mediapartners-Google, Googlebot-Image, MJ12bot a další.
Disallow:
Pro zablokování celého webu pro roboty použijte lomítko.
Disallow: /
Pro blokování adresáře a všeho, co obsahuje, zadejte lomítko za adresář.
Disallow: /adresar-X/
Pro blokování stránky uveďte příslušnou stránku.
Disallow: /skryty-soubor.html
Pro odebrání konkrétního obrázku z Vyhledávání obrázků Google definujte cestu k souboru spolu s definicí robota pro obrázky.
User-agent: Googlebot-Image
Disallow: /obrazky/psi.jpg
Pro odebrání všech obrázků z Vyhledávání obrázků Google zadejte robota a lomítko.
User-agent: Googlebot-Image
Disallow: /
Pro blokaci souborů určitého typu (např. soubory .jpg) zadejte řetězec platný pro všechny vyhledávače.
Disallow: /*.jpg$
Příkazy robots.txt rozlišují malá a velká písmenka.
Příklad příkaz Disallow: /soubor.php
- blokuje soubor http://www.example.cz/soubor.php
- povolí soubor http://www.example.cz/Soubor.php
Zástupné znaky v robots.txt
* | nahrazuje libovolný řetězec znaků (může se vyskytovat v pravidle vícekrát) |
$ | znamená konec URL adresy (interpretuje se stejně u všech pravidel) |
Pro přiřazení posloupnosti znaků použijte hvězdičku *. K zablokování přístupu do všech podadresářů začínajících slovem tajne použijte v robots.txt následující zápis:
Disallow: /tajne*/
Pro zablokování indexace všech URL adres s otazníkem ? použijte následující položku:
Disallow: /*?
Pro blokování adres se specifikovanými koncovými znaky použijte znak $. Následující zápis blokuje všechny soubory .doc:
Disallow: /*.doc$
Přiřazování zástupných znaků je možné v souboru robots.txt používat v kombinaci s příkazem Allow. Tedy naopak povolení řady URL.
Definice cesty k sitemap.xml
Stejně jako soubor robots.txt slouží robotům vyhledávačů i soubor sitemap.xml. Určuje, které stránky webu by měly být indexovány. K tomu je dobré robotům oznámit, kde ji má najít (tím spíše pokud není URL adresa standartní). I k tomu slouží zápis v souboru robots.txt.
Příklad zápisu sitemap.xml v souboru robots.txt
URL se sitemap.xml musí být v souboru robots.txt zadána absolutně.
Sitemap: http://www.it-logica.cz/sitemap.xml
Doporučení:
Po vytvoření souboru robots.txt je dobré přistoupit k validaci souboru. V případě, pokud chcete řešení od specialisty, pak nás neváhejte kontaktovat!