robots.txt - slovník | Peter Svatoň

robots.txt je obyčejný textový soubor umístěný v kořeni domény (například svaton.cz/robots.txt), který robotům dává pokyny, které části webu smí procházet a které ne. Je to dohoda, ne zámek - slušné roboty (Googlebot, Bing, většina AI crawlerů) ji respektují.

Jak funguje

Pracuje s pravidly User-agent (pro kterého robota platí), Disallow (kam nesmí) a Allow (výjimka). Klasicky se jím řešilo, aby roboty nemrhaly kapacitou na nesmyslné stránky - filtry, košík, interní vyhledávání.

Nová role v éře AI

Tentýž soubor dnes řídí i AI crawlery. Každý user-agent ale může mít jiný účel. U OpenAI například OAI-SearchBot souvisí s vyhledáváním, zatímco GPTBot s možným zlepšováním modelů. Pravidla proto nastavujte po jednotlivých crawlerech, ne jedním zákazem pro všechny.

Naučená past: když audit hlásí, že je něco "blokované v robots.txt", většinou nejde o důležité stránky, ale o filtry a faceted navigaci, které tam blokované být mají. Vždy je třeba se podívat, co přesně je za pravidlem, než se spustí poplach.

Časté otázky

Skryje robots.txt stránku z Google?

Ne spolehlivě. Disallow jen zabrání procházení obsahu, stránka se i tak může objevit ve výsledcích bez popisu. Na skutečné vyloučení z indexu slouží značka noindex, ne robots.txt.

Musí mít web robots.txt?

Nemusí, ale mít ho je dobrá praxe. Aspoň by měl odkazovat na sitemapu a vědomě řešit přístup robotů včetně AI crawlerů.

Jak funguje

Nová role v éře AI

Časté otázky

Čtěte dále

Pojem už znáte. Pracuje pro vás?

Související pojmy