Slovník
robots.txt
Textový soubor v kořeni webu, který robotům říká, kam smí a kam ne. Dnes stejný nástroj rozhoduje i o tom, jestli vás čtou AI crawlery.
robots.txt je obyčejný textový soubor umístěný v kořeni domény (například svaton.cz/robots.txt), který robotům dává pokyny, které části webu smí procházet a které ne. Je to dohoda, ne zámek - slušné roboty (Googlebot, Bing, většina AI crawlerů) ji respektují.
Jak funguje
Pracuje s pravidly User-agent (pro kterého robota platí), Disallow (kam nesmí) a Allow (výjimka). Klasicky se jím řešilo, aby roboty nemrhaly kapacitou na nesmyslné stránky - filtry, košík, interní vyhledávání.
Nová role v éře AI
Tentýž soubor dnes rozhoduje i o AI crawlerech. Řádkem Disallow u GPTBot, ClaudeBot nebo PerplexityBot je pustíte nebo zablokujete - a tím přímo ovlivníte, jestli vás AI nástroje můžou citovat.
Naučená past: když audit hlásí, že je něco "blokované v robots.txt", většinou nejde o důležité stránky, ale o filtry a faceted navigaci, které tam blokované být mají. Vždy je třeba se podívat, co přesně je za pravidlem, než se spustí poplach.
Časté otázky
Skryje robots.txt stránku z Google?
Ne spolehlivě. Disallow jen zabrání procházení obsahu, stránka se i tak může objevit ve výsledcích bez popisu. Na skutečné vyloučení z indexu slouží značka noindex, ne robots.txt.
Musí mít web robots.txt?
Nemusí, ale mít ho je dobrá praxe. Aspoň by měl odkazovat na sitemapu a vědomě řešit přístup robotů včetně AI crawlerů.
Chcete vědět, jestli vás v tomhle vidět?
Pošlete mi web nebo otázku. Podívám se prakticky na to, kde se ztrácí viditelnost a co řešit jako první.