Soubor robots.txt je textový soubor umístěný v kořenovém adresáři webu, který slouží k instruování robotů (např. crawlerů vyhledávačů), které stránky webu by měli a neměli procházet a indexovat.
Jak robots.txt funguje?
- Roboti procházející web nejprve hledají soubor robots.txt.
- Pokud soubor robots.txt existuje, robot ho přečte a řídí se pokyny v něm obsaženými.
- Pokud soubor robots.txt neexistuje, robot prochází všechny stránky webu.
Pokyny v souboru robots.txt
Soubor robots.txt obsahuje pokyny pro roboty, které definují, které stránky webu smí a nesmí procházet.
Pokyny se skládají ze dvou klíčových slov:
- User-agent: Toto klíčové slovo definuje, pro kterého robota se pokyn vztahuje. Může se jednat o konkrétního robota (např. Googlebot) nebo o skupinu robotů (např. všechny crawlery).
- Disallow: Toto klíčové slovo definuje, které stránky webu robot nesmí procházet. Za klíčovým slovem Disallow následuje cesta k dané stránce.
Základní Příklady souboru robots.txt
User-agent: *
Disallow: /admin/
Disallow: /images/
Tento soubor robots.txt zakazuje všem robotům procházet adresář /admin/ a všechny soubory v adresáři /images/.
Jaké jsou základní příkazy?
- User-agent: Definuje, pro kterého robota se pokyn vztahuje.
- User-agent: * - Vztahuje se na všechny roboty.
- User-agent: Googlebot - Vztahuje se pouze na robota Googlebot.
- Disallow: Zakazuje robotům procházet danou stránku nebo adresář.
- Disallow: / - Zakazuje robotům procházet celý web.
- Disallow: /admin/ - Zakazuje robotům procházet adresář /admin/.
- Disallow: /soubor.html - Zakazuje robotům procházet soubor soubor.html.
- Allow: Povoluje robotům procházet danou stránku nebo adresář.
- Allow: / - Povoluje robotům procházet celý web.
- Allow: /verejne/ - Povoluje robotům procházet adresář /verejne/.
Pokročilé příkazy
- Crawl-delay: Určuje časovou prodlevu mezi požadavky robota na server.
- Crawl-delay: 10 - Robot bude čekat 10 sekund mezi každým požadavkem na server.
- Sitemap: Určuje URL adresu souboru s mapou webu.
- Sitemap: https://www.example.com/sitemap.xml - Robot najde soubor s mapou webu na adrese https://www.example.com/sitemap.xml.
- Robots.txt: Určuje URL adresu souboru robots.txt.
- Robots.txt: https://www.example.com/robots.txt - Robot najde soubor robots.txt na adrese https://www.example.com/robots.txt.
Příklad souboru robots.txt
User-agent: *
Disallow: /admin/
Disallow: /images/
Crawl-delay: 10
Sitemap: https://www.example.com/sitemap.xml
Tento soubor robots.txt:
- Zakazuje všem robotům procházet adresář /admin/ a všechny soubory v adresáři /images/.
- Určuje časovou prodlevu 10 sekund mezi požadavky robota na server.
- Určuje URL adresu souboru s mapou webu na https://www.example.com/sitemap.xml.
Jaké služby nabízíme?
Zdroje článku:
Robots.txt Introduction and Guide | Google Search Central | Documentation | Google for Developers [online]. [cit. 15. 03. 2024]. Dostupné z: https://developers.google.com/search/docs/crawling-indexing/robots/intro
Robots.txt | Seznam Nápověda [online]. [cit. 15. 03. 2024]. Dostupné z: https://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/robots-txt/
What Is A Robots.txt File? Best Practices For Robot.txt Syntax - Moz [online]. [cit. 15. 03. 2024]. Dostupné z: https://moz.com/learn/seo/robotstxt
What is robots.txt [online]. [cit. 15. 03. 2024]. Dostupné z: https://www.cloudflare.com/learning/bots/what-is-robots-txt/