La guerre des robots.txt s'intensifie
En février 2026, Anthropic a mis à jour la documentation de ses crawlers web, formalisant un système à trois bots : ClaudeBot (collecte pour l'entraînement IA), Claude-User (récupération de pages à la demande des utilisateurs) et Claude-SearchBot (indexation pour les résultats de recherche). OpenAI a adopté la même structure en décembre 2025 avec GPTBot, ChatGPT-User et OAI-SearchBot.
Cette segmentation donne aux éditeurs un contrôle plus granulaire : bloquer l'entraînement sans se couper de la recherche IA. Mais une différence clé persiste — Anthropic affirme que ses trois bots respectent robots.txt, tandis qu'OpenAI prévient que ChatGPT-User peut ignorer ces directives.
Un déséquilibre crawl-trafic massif
Les chiffres sont éloquents. En juillet 2025, ClaudeBot crawlait 38 000 pages pour chaque visite référée vers les sites sources. Côté OpenAI, le ratio était de 1 700 pour 1 en juin 2025. À titre de comparaison, Google renvoie du trafic proportionnel à son indexation.
Selon une analyse HTTP Archive sur 12,2 millions de sites, 94 % possèdent un fichier robots.txt. GPTBot est référencé sur 21 % des 1 000 sites les plus visités, et ClaudeBot sur plus de 560 000 sites — une croissance fulgurante depuis son apparition sur 2 382 sites en décembre 2023.
Les éditeurs dans le dilemme
Une étude BuzzStream révèle que 79 % des sites d'actualité majeurs bloquent au moins un bot d'entraînement IA, mais 71 % bloquent aussi un bot de recherche ou de récupération — se coupant potentiellement des citations dans les réponses IA. Une étude de janvier 2026 montre que les éditeurs qui bloquent les crawlers IA voient leur trafic total chuter de 23 %.
La stratégie émergente : autoriser les bots de recherche (OAI-SearchBot, Claude-SearchBot) tout en bloquant les bots d'entraînement. Selon Hostinger, la couverture d'OAI-SearchBot est passée de 4,7 % à plus de 55 % des sites échantillonnés, tandis que celle du bot d'entraînement GPTBot a chuté de 84 % à 12 %.
L'infrastructure sous pression
L'impact va au-delà du SEO. La Wikimedia Foundation alerte sur un volume de crawl « sans précédent » qui engendre des coûts croissants. Un développeur rapporte 700 Go/mois de trafic bot contre 100 Go auparavant, soit 90 $ de surcoût mensuel. SourceHut subit des dizaines de pannes hebdomadaires à cause des crawlers LLM.
Face à cette pression, de nouveaux outils émergent : Cloudflare propose AI Labyrinth (contenus piégés pour les bots) et un service de monétisation pay-per-crawl. Des solutions communautaires comme Anubis (proof-of-work) et Nepenthes (labyrinthes de liens infinis) gagnent en popularité.
Un modèle économique à inventer
Le statu quo est intenable. Les crawlers IA consomment massivement les contenus du web ouvert sans contrepartie proportionnelle. La segmentation des bots est un premier pas vers un équilibre, mais la question fondamentale reste ouverte : comment rémunérer les créateurs de contenu qui alimentent les modèles IA ?