Slovník

robots.txt

Textový soubor v kořeni webu, který robotům říká, kam smí a kam ne. Dnes stejný nástroj rozhoduje i o tom, jestli vás čtou AI crawlery.

robots.txt je obyčejný textový soubor umístěný v kořeni domény (například svaton.cz/robots.txt), který robotům dává pokyny, které části webu smí procházet a které ne. Je to dohoda, ne zámek - slušné roboty (Googlebot, Bing, většina AI crawlerů) ji respektují.

Jak funguje

Pracuje s pravidly User-agent (pro kterého robota platí), Disallow (kam nesmí) a Allow (výjimka). Klasicky se jím řešilo, aby roboty nemrhaly kapacitou na nesmyslné stránky - filtry, košík, interní vyhledávání.

Nová role v éře AI

Tentýž soubor dnes rozhoduje i o AI crawlerech. Řádkem Disallow u GPTBot, ClaudeBot nebo PerplexityBot je pustíte nebo zablokujete - a tím přímo ovlivníte, jestli vás AI nástroje můžou citovat.

Naučená past: když audit hlásí, že je něco "blokované v robots.txt", většinou nejde o důležité stránky, ale o filtry a faceted navigaci, které tam blokované být mají. Vždy je třeba se podívat, co přesně je za pravidlem, než se spustí poplach.

Časté otázky

Skryje robots.txt stránku z Google?

Ne spolehlivě. Disallow jen zabrání procházení obsahu, stránka se i tak může objevit ve výsledcích bez popisu. Na skutečné vyloučení z indexu slouží značka noindex, ne robots.txt.

Musí mít web robots.txt?

Nemusí, ale mít ho je dobrá praxe. Aspoň by měl odkazovat na sitemapu a vědomě řešit přístup robotů včetně AI crawlerů.

Chcete vědět, jestli vás v tomhle vidět?

Pošlete mi web nebo otázku. Podívám se prakticky na to, kde se ztrácí viditelnost a co řešit jako první.