Co je to Robots.txt?

Soubor robots.txt je textový soubor umístěný v kořenovém adresáři webu, který slouží k instruování robotů (např. crawlerů vyhledávačů), které stránky webu by měli a neměli procházet a indexovat.

 

Jak robots.txt funguje?

  • Roboti procházející web nejprve hledají soubor robots.txt.
  • Pokud soubor robots.txt existuje, robot ho přečte a řídí se pokyny v něm obsaženými.
  • Pokud soubor robots.txt neexistuje, robot prochází všechny stránky webu.

 

Pokyny v souboru robots.txt

Soubor robots.txt obsahuje pokyny pro roboty, které definují, které stránky webu smí a nesmí procházet.

Pokyny se skládají ze dvou klíčových slov:

  • User-agent: Toto klíčové slovo definuje, pro kterého robota se pokyn vztahuje. Může se jednat o konkrétního robota (např. Googlebot) nebo o skupinu robotů (např. všechny crawlery).
  • Disallow: Toto klíčové slovo definuje, které stránky webu robot nesmí procházet. Za klíčovým slovem Disallow následuje cesta k dané stránce.

 

Základní Příklady souboru robots.txt

User-agent: *

Disallow: /admin/

Disallow: /images/

Tento soubor robots.txt zakazuje všem robotům procházet adresář /admin/ a všechny soubory v adresáři /images/.

 

Jaké jsou základní příkazy?

  • User-agent: Definuje, pro kterého robota se pokyn vztahuje.
    • User-agent: * - Vztahuje se na všechny roboty.
    • User-agent: Googlebot - Vztahuje se pouze na robota Googlebot.
  • Disallow: Zakazuje robotům procházet danou stránku nebo adresář.
    • Disallow: / - Zakazuje robotům procházet celý web.
    • Disallow: /admin/ - Zakazuje robotům procházet adresář /admin/.
    • Disallow: /soubor.html - Zakazuje robotům procházet soubor soubor.html.
  • Allow: Povoluje robotům procházet danou stránku nebo adresář.
    • Allow: / - Povoluje robotům procházet celý web.
    • Allow: /verejne/ - Povoluje robotům procházet adresář /verejne/.

 

Pokročilé příkazy

  • Crawl-delay: Určuje časovou prodlevu mezi požadavky robota na server.
    • Crawl-delay: 10 - Robot bude čekat 10 sekund mezi každým požadavkem na server.
  • Sitemap: Určuje URL adresu souboru s mapou webu.
    • Sitemap: https://www.example.com/sitemap.xml - Robot najde soubor s mapou webu na adrese https://www.example.com/sitemap.xml.
  • Robots.txt: Určuje URL adresu souboru robots.txt.

 

Příklad souboru robots.txt

User-agent: *

Disallow: /admin/

Disallow: /images/

Crawl-delay: 10

Sitemap: https://www.example.com/sitemap.xml

Tento soubor robots.txt:

  • Zakazuje všem robotům procházet adresář /admin/ a všechny soubory v adresáři /images/.
  • Určuje časovou prodlevu 10 sekund mezi požadavky robota na server.
  • Určuje URL adresu souboru s mapou webu na https://www.example.com/sitemap.xml.

 

Jaké služby nabízíme?

 

Zdroje článku:

Robots.txt Introduction and Guide | Google Search Central  |  Documentation  |  Google for Developers [online]. [cit. 15. 03. 2024]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/intro

Robots.txt | Seznam Nápověda [online]. [cit. 15. 03. 2024]. Dostupné z: https://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/robots-txt/

What Is A Robots.txt File? Best Practices For Robot.txt Syntax - Moz [online]. [cit. 15. 03. 2024]. Dostupné z: https://moz.com/learn/seo/robotstxt

What is robots.txt [online]. [cit. 15. 03. 2024]. Dostupné z: https://www.cloudflare.com/learning/bots/what-is-robots-txt/

 

Zpět do obchodu