Pourquoi votre robots.txt a soudain trois ans de retard
En 2023, il fallait une ligne pour GPTBot. En 2026, un robots.txt moderne a besoin de règles pour une douzaine de bots IA — et le vieux conseil « tout bloquer » est désormais contre-productif.
Si vous gérez un petit site, il y a de bonnes chances que votre robots.txt n'ait pas été touché depuis que vous avez ajouté une seule règle pour GPTBot en 2023 — ou que vous ne l'ayez jamais touché. Cet écart compte plus qu'avant. Mi-2025, les données réseau de Cloudflare ont montré que le crawl lié à l'entraînement avait atteint près de 80 % de toute l'activité des bots IA, contre 72 % un an plus tôt.[3] Les crawlers IA représentent désormais une part notable de ceux qui frappent à la porte de votre serveur chaque jour, et les règles que vous leur donnez décident de deux choses très différentes : si votre contenu entraîne gratuitement le modèle d'un autre, et si vous apparaissez quand un acheteur pose une question à ChatGPT ou Perplexity.
Ce qui rend 2026 véritablement différent, c'est que les grands fournisseurs d'IA ont scindé leur crawler unique en plusieurs. OpenAI n'opère plus un seul bot — il opère GPTBot pour l'entraînement, OAI-SearchBot pour ChatGPT Search et ChatGPT-User pour les récupérations à la demande. Anthropic en opère trois. Conséquence pratique : le réflexe de Disallow: / pour chaque user-agent IA fait désormais deux choses à la fois. Il vous sort des corpus d'entraînement (souvent ce que vous vouliez) et vous efface des réponses de recherche IA (presque jamais ce que vous vouliez). L'analyse par Digital Applied du cadre d'Anthropic rapporte qu'environ 71 % des grands éditeurs de presse bloquent au moins un bot de récupération ou de recherche, souvent en croyant ne bloquer que l'entraînement.[5] C'est exactement l'erreur coûteuse que ce guide vise à éviter.
La phrase qui explique tout le sujet
Ce qu'est llms.txt — et pourquoi il ne fera sans doute pas grand-chose
Une idée raisonnable presque sans preuve d'adoption derrière elle. Publiez-le si c'est gratuit ; ne bâtissez pas de stratégie dessus.
llms.txt est un fichier Markdown proposé par la communauté que vous placez à la racine de votre domaine (/llms.txt) et qui liste vos pages les plus importantes sous une forme propre et analysable, pour qu'un grand modèle de langage trouve et comprenne votre meilleur contenu sans traverser la navigation, les pubs et les scripts. Il a été proposé par Jeremy Howard, d'Answer.AI, en septembre 2024. L'analogie habituelle est « un sitemap pour LLM », et l'intention est réellement sensée : donner aux modèles une carte curée et peu bruitée de ce qui compte sur votre site, éventuellement avec un /llms-full.txt plus complet qui intègre le contenu réel.
Le problème est l'écart entre l'idée et les preuves. Après dix-huit mois de discussion dans le secteur, les données dégrisent :
- L'adoption est d'environ un site sur dix. L'étude de SE Ranking sur 300 000 domaines a trouvé un taux d'adoption de 10,13 %, et, point crucial, l'adoption était quasi identique sur les niveaux de trafic faible, moyen et élevé (~9–10 % chacun) — ce ne sont donc pas les sites sophistiqués qui filent devant.[1]
- Aucun gain mesurable de citations. La même analyse de SE Ranking n'a trouvé aucune différence statistiquement significative dans la fréquence des citations IA entre les sites avec et sans llms.txt. Un modèle entraîné sur les données de citations IA s'est même amélioré quand la variable llms.txt a été retirée.[1]
- Presque rien ne le lit. Limy.AI a surveillé plus de 500 millions d'événements de bots IA sur 90 jours et n'a trouvé que 408 requêtes visant llms.txt directement.[14] Search Engine Land a suivi 10 sites 90 jours avant et après l'ajout du fichier ; seuls deux ont vu une hausse du trafic IA, et pas à cause du fichier.[2]
- Aucun soutien officiel. Mi-2026, ni OpenAI, ni Anthropic, ni Google, ni Perplexity n'ont officiellement confirmé que leurs systèmes lisent ou exploitent llms.txt. Cela reste une spécification communautaire, pas un standard adopté.
llms.txt : la réalité adoption vs impact
Un site sur dix l'a ; le bénéfice mesurable jusqu'ici est quasi nul[1][14]
Ce n'est pas un argument pour ne jamais publier de llms.txt — il ne coûte presque rien et est compatible avec l'avenir si les plateformes formalisent le support. C'est un argument contre le fait de le traiter comme un levier de croissance. Consacrez-y dix minutes si vous voulez ; ne lui consacrez pas une réunion de stratégie.
L'avis honnête pour un petit site
robots.txt. C'est celui que les crawlers obéissent vraiment, et celui qui décide si vous êtes (ou non) dans les réponses que lisent vos clients.
robots.txt vs llms.txt : la comparaison honnête
Même répertoire racine, pouvoirs totalement différents. L'un est applicable ; l'autre est une requête polie que personne n'est obligé de lire.
| Dimension | robots.txt | llms.txt |
|---|---|---|
| Ce que c'est | Un fichier de contrôle d'accès qui indique aux crawlers ce qu'ils peuvent et ne peuvent pas récupérer | Un fichier de curation en Markdown qui liste vos meilleures pages pour qu'un LLM les trouve et les analyse |
| Ancienneté et statut | Robots Exclusion Protocol — un standard web vieux de ~30 ans, désormais un RFC de l'IETF | Une proposition communautaire de sept. 2024 (Jeremy Howard / Answer.AI). Pas un standard officiel |
| Emplacement | /robots.txt à la racine de votre domaine | /llms.txt à la racine de votre domaine (éventuellement un /llms-full.txt plus complet) |
| Application | Respecté par tous les grands crawlers IA (sauf quelques-uns comme Bytespider) | Purement consultatif — aucun crawler n'est tenu de le lire ou d'en tenir compte |
| Qui le consomme vraiment | OpenAI, Anthropic, Perplexity, Google et Common Crawl le lisent | Aucune grande plateforme IA n'a officiellement confirmé lire llms.txt (mi-2026) |
| Impact mesuré | Contrôle directement si un bot est autorisé à crawler un chemin | L'étude de 300 k domaines de SE Ranking n'a trouvé aucun gain significatif de citations |
| Ce qu'il ne peut pas faire | Ne peut pas arrêter un bot non conforme et ne contrôle pas les AI Overviews (index Googlebot) | Ne peut rien bloquer — c'est une suggestion, pas une barrière |
| Vaut-il le coup en 2026 ? | Oui — c'est votre vrai levier. Tenez-le à jour avec la liste des bots de 2026 | Faible coût, faible risque, faible récompense. Publiez-le si c'est gratuit ; n'en attendez pas de trafic |
La conclusion n'est pas « llms.txt est inutile » — c'est que les deux fichiers ne sont pas interchangeables, et que celui qui change vraiment les résultats aujourd'hui est le vieux fichier ennuyeux. Si en 2026 vous n'avez le temps de bien faire qu'un seul fichier, que ce soit robots.txt, avec des règles qui reflètent le paysage actuel des crawlers IA et non la version de 2023.
Le zoo des crawlers IA de 2026 : qui vous rend visite
Chaque moteur IA opère son propre crawler — et la plupart en opèrent deux ou trois, chacun avec un travail distinct et une bonne réponse distincte.
Avant d'écrire une règle sensée, il faut savoir à quoi sert chaque bot. Chaque crawler IA fait l'un de trois travaux : il collecte des pages pour entraîner des modèles, il indexe des pages pour les réponses de recherche IA, ou il récupère une page en temps réel parce qu'un utilisateur a interrogé l'assistant à son sujet à l'instant. Ce sont des relations commerciales distinctes, et en 2026 les grands fournisseurs les exposent enfin comme des bots distincts que vous pouvez contrôler indépendamment.
Les bots que vous verrez le plus
| Bot | Propriétaire | But | robots.txt ? | Décision par défaut 2026 |
|---|---|---|---|---|
GPTBot | OpenAI | Entraînement — alimente les futurs modèles GPT | Oui | Bloquez-le si vous ne voulez pas entraîner des modèles gratuitement ; autorisez-le pour une portée future maximale |
OAI-SearchBot | OpenAI | Indexe les pages pour ChatGPT Search | Oui | AUTORISER — le bloquer vous retire des réponses de ChatGPT Search |
ChatGPT-User | OpenAI | Récupération à la demande quand un utilisateur ouvre votre URL | Oui | AUTORISER — le bloquer casse une récupération que l'utilisateur a demandée |
ClaudeBot | Anthropic | Entraînement — alimente le corpus de pré-entraînement de Claude | Oui | Bloquez-le pour refuser l'entraînement ; c'est le crawler le plus extractif selon le ratio crawl-to-referral |
Claude-SearchBot | Anthropic | Indexe les pages pour l'outil de recherche web de Claude | Oui | AUTORISER — c'est ainsi que Claude vous cite (nouveau en 2026) |
PerplexityBot | Perplexity | Indexe les pages pour que Perplexity puisse les citer | Oui (avec réserve sur le crawl furtif) | AUTORISER — Perplexity est le moteur le plus favorable aux citations pour les petits sites |
Google-Extended | Jeton de contrôle — régit l'usage des pages déjà crawlées pour entraîner Gemini/Vertex | Oui (c'est un jeton, pas un vrai bot — jamais dans vos logs) | Refus optionnel de l'entraînement de Gemini. Ne contrôle PAS les AI Overviews — utilisez le nouveau opt-out de GSC pour cela | |
CCBot | Common Crawl | Corpus public qui alimente de nombreux entraîneurs de modèles | Oui | Bloquez-le pour rester hors du corpus ouvert ; inoffensif si autorisé |
Bytespider | ByteDance | Entraînement — alimente Doubao | Non — non-conformité documentée | Bloquez-le au niveau WAF / IP — le robots.txt seul ne l'arrête pas |
Deux lignes méritent une seconde lecture. Google-Extended n'est pas un vrai crawler — c'est un jeton de contrôle qui n'apparaît jamais dans vos logs serveur comme une requête HTTP. Il régit seulement si Google peut utiliser des pages qu'il a déjà crawlées (avec le Googlebot normal) pour entraîner Gemini et Vertex AI. Et Bytespider (ByteDance) a un historique documenté d'ignorer robots.txt de façon inconstante, raison pour laquelle le bloquer nécessite une règle de pare-feu ou au niveau IP plutôt qu'un poli Disallow.
La distinction qui fait tout le travail
GPTBot n'est pas OAI-SearchBot. ClaudeBot n'est pas Claude-SearchBot. Traitez-les comme un seul groupe et vous vous effacez du canal de référence à la croissance la plus rapide de l'année.
L'économie : perte de trafic vs perte de citations
La décision de bloquer ou d'autoriser est en réalité un arbitrage entre deux types de perte. Le ratio crawl-to-referral de Cloudflare est le chiffre qui le cadre.
L'argument économique pour bloquer les crawlers d'entraînement se résume à un seul ratio : combien de vos pages un bot crawle pour chaque visiteur qu'il vous renvoie. Cloudflare publie ce ratio crawl-to-referral sur son réseau, et l'écart entre fournisseurs est extraordinaire. Le Googlebot traditionnel tourne autour de 5 pages crawlées par referral. Le ClaudeBot d'Anthropic, à son pic de juin 2025, crawlait environ 70 900 pages pour chaque visiteur qu'il renvoyait — une asymétrie qui redéfinit l'accès d'entraînement comme une extraction de valeur à sens unique.[5]
Ratio crawl-to-referral — pages crawlées par visiteur renvoyé
Plus c'est bas, plus c'est équitable pour l'éditeur. Les crawlers d'entraînement prennent bien plus qu'ils ne donnent[3][5][9]
Les barres sont sur une seule échelle linéaire, c'est pourquoi tout ce qui est sous ClaudeBot paraît minuscule — c'est le but. Le pic de ClaudeBot (~70 900:1) et GPTBot (1 276:1) écrasent Googlebot (~5:1) et DuckDuckGo (~1,5:1). En juillet 2025, Anthropic s'était amélioré à ~38 000:1 et Perplexity était à 194:1, mais l'écart reste énorme.
Mais il y a un piège qui empêche « bloquez simplement les bots d'entraînement » d'être gratuit, et c'est la nuance la plus importante de tout cet article. Le blocage a des effets secondaires sur les citations. L'analyse d'AuthorityTech de 2026 a trouvé que les sites qui bloquent Google-Extended sont bien moins susceptibles d'être cités par les moteurs génératifs — même dans les AI Overviews, où Google conserve techniquement l'accès au contenu via l'index normal.[11] Et les données de ppc.land montrent que le blocage est poreux dans l'autre sens aussi : bloquer les crawlers IA n'arrête pas de façon fiable les citations, car les moteurs puisent dans des chemins alternatifs, des citations tierces et des copies en cache.[10] Vous pouvez perdre l'avantage de visibilité sans gagner pleinement la confidentialité pour laquelle vous avez bloqué.
De l'autre côté de la balance se trouve le dommage de trafic qui pousse les gens à bloquer en premier lieu. Les AI Overviews de Google ont mesurablement réduit le trafic de référence : Digital Content Next rapporte des baisses de trafic de 1–25 % pour les membres, avec une moyenne d'environ 25 %, et les taux de clic chutent de 34,5 % à 79 % quand un AI Overview apparaît, selon le type de requête.[8] Les éditeurs interrogés par ppc.land anticipent une baisse de trafic supplémentaire de 43 % sur les trois prochaines années.[10] Quand l'IA prend votre trafic tout en vous crawlant 70 000 contre 1, l'envie de relever le pont-levis est compréhensible.
Ce que les AI Overviews font au trafic des petits sites
Le dommage qui pousse les propriétaires à bloquer — et pourquoi la décision semble urgente[8][10]
Près d'un quart des 1 000 plus grands sites bloquent désormais GPTBot. Mais notez ce que bloquer GPTBot seul ne fait pas : cela ne vous retire pas des AI Overviews (index différent), et cela n'empêche pas ChatGPT Search de vous citer (c'est OAI-SearchBot). Le dommage de trafic et le crawler que vous bloquez ne sont souvent même pas liés.
La part des crawlers IA se concentre autour de deux acteurs
GPTBot et ClaudeBot ont plus que doublé leur part de crawl IA ; Bytespider s'est effondré[3]
Entre 2024 et mi-2025, la part de crawl IA de GPTBot est passée de 4,7 % à 11,7 % et celle de ClaudeBot de 6 % à ~10 %, tandis que le Bytespider de ByteDance chutait de 14,1 % à 2,4 %. En mai 2026, le Claude-SearchBot dédié d'Anthropic est apparu à 2,00 % de part — la première fois que le crawler de recherche d'un grand fournisseur apparaît comme un acteur distinct et de taille notable.
Le nouvel opt-out de Google — et pourquoi Google-Extended ne l'est pas
Le contrôle que les éditeurs réclamaient depuis deux ans est enfin arrivé en juin 2026. Ce n'est pas la même chose que Google-Extended, et la différence compte.
Pendant deux ans, la question la plus posée sur les crawlers IA était une version de : « Comment apparaître dans la recherche Google normale mais pas dans les AI Overviews ? ». Jusqu'en juin 2026, la réponse honnête était « vous ne pouvez pas ». Google-Extended — le jeton vers lequel la plupart se tournaient — ne contrôle que si Google entraîne Gemini et Vertex AI sur vos pages déjà crawlées. Il n'a jamais contrôlé les AI Overviews ni l'AI Mode, qui puisent dans l'index standard de Googlebot. Bloquer Google-Extended ne faisait rien pour vous tenir hors des résumés IA qui mangeaient réellement vos clics.[8]
Cela a changé le 3 juin 2026, quand Google a lancé un rapport de performance IA dans Search Console accompagné d'un bouton d'opt-out qui permet aux éditeurs de retirer du contenu des AI Overviews et de l'AI Mode sans perdre le classement de recherche standard.[6] Le réglage prend effet le 17 juin 2026, quand Google commence à agir sur le signal, et l'activer n'affecte pas votre position dans les résultats Google normaux.[7] Deux nuances à relire deux fois : l'application Gemini est exclue de cet opt-out (c'est un produit distinct), et choisir de sortir signifie accepter que disparaisse aussi la citation/visibilité que vous tiriez des AIO.
Ce que fait chaque levier de Google
- Google-Extended (jeton robots.txt) → refus de l'entraînement Gemini / Vertex. Ne vous retire pas des AI Overviews.
- Bouton d'opt-out IA de GSC (effectif le 17 juin 2026) → retire le contenu des AI Overviews et de l'AI Mode, conserve le classement normal. Exclut l'application Gemini.
- Disallow Googlebot → option nucléaire ; vous retire entièrement de Google, y compris la recherche normale qui envoie de vrais clics. Presque jamais le bon choix.
La configuration par défaut recommandée pour 2026
Trois profils, une décision. Choisissez celui qui correspond à votre objectif et copiez le robots.txt ci-dessous.
Il n'y a pas une seule configuration correcte — il y a une configuration correcte pour votre objectif. Voici les trois profils qui couvrent presque tous les petits sites, de « je veux être dans chaque réponse » à « tenez-moi hors de l'IA entièrement ».
| Profil | Pour qui | Bots d'entraînement | Bots de recherche | Pourquoi |
|---|---|---|---|---|
| Visibilité maximale | La plupart des petits sites, blogs, commerces locaux | Tout autoriser | Tout autoriser | Vous voulez être dans chaque réponse. Le coût de bande passante est négligeable à petite échelle, et bloquer l'entraînement a des effets secondaires mesurables sur les citations. |
| Bloquer l'entraînement, garder les citations | Éditeurs, sites de recherche originale, quiconque refuse l'extraction unilatérale | Bloquer GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended, Bytespider (WAF) | Autoriser OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User | Le réglage par défaut de consensus en 2026 pour les sites de contenu : stopper l'extraction à sens unique, garder ouvert le canal de citations. |
| Hors des réponses IA entièrement | Contenu payant, sur abonnement ou juridiquement sensible | Bloquer tous les bots d'entraînement | Bloquer tous les bots de recherche/réponse + activer le nouveau opt-out de GSC (effectif le 17 juin 2026) | Vous acceptez la perte de citations pour garder le contenu hors des surfaces IA. Le classement standard de Google n'est pas affecté par le bouton de GSC. |
Pour la plupart des petits sites, la recommandation honnête est le Profil 1 — tout autoriser. Votre objectif est la visibilité, le coût de bande passante du crawl IA est négligeable à petite échelle, et bloquer les crawlers d'entraînement comporte des effets secondaires sur les citations que vous ne pouvez pas entièrement prévoir. Le profil « bloquer l'entraînement, garder les citations » (Profil 2) est le bon réglage par défaut pour les sites de contenu, les éditeurs et quiconque publie de la recherche originale et refuse réellement l'extraction unilatérale. Le Profil 3 est réservé au contenu payant, sur abonnement ou juridiquement sensible.
Voici la configuration de consensus de 2026 pour un site de contenu qui veut stopper l'entraînement gratuit tout en restant citable dans la recherche IA. Collez-la dans /robots.txt et ajoutez la règle de pare-feu pour Bytespider séparément (il ignore robots.txt).
# --- Bloquer les crawlers d'ENTRAÎNEMENT ---
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
# --- AUTORISER les crawlers de recherche / réponse (c'est ainsi qu'on vous cite) ---
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: PerplexityBot
Allow: /
# --- Tout le reste ---
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml Notes : remplacez example.com par votre domaine. Bytespider nécessite un blocage au niveau WAF ou IP — un Disallow ne l'arrête pas de façon fiable. Et souvenez-vous qu'ici Google-Extended ne bloque que l'entraînement de Gemini ; pour sortir des AI Overviews, utilisez le nouvel opt-out de Search Console (effectif le 17 juin 2026), pas ce fichier.
L'hygiène des crawlers ouvre la porte — le contenu la rend digne d'être franchie
Comment voir quels bots vous visitent réellement
Avant de bloquer quoi que ce soit, regardez vos logs. Vous optimisez peut-être pour un crawler qui ne vient jamais — ou vous en bloquez un qui génère toutes vos citations.
Les règles écrites à l'aveugle sont des suppositions. Consacrez vingt minutes à regarder qui vous crawle réellement avant de changer une seule ligne, car le paysage des bots varie énormément selon la niche. Voici la pile de surveillance pratique, du moins cher au plus :
- Logs d'accès serveur / CDN. Filtrez par user-agent pour
GPTBot,OAI-SearchBot,ChatGPT-User,ClaudeBot,Claude-SearchBot,PerplexityBot,CCBotetBytespider. Cela vous indique la fréquence et les pages que chaque bot touche. Note :Google-Extendedn'apparaîtra jamais — c'est un jeton, pas une requête. - Cloudflare Radar AI Insights. Si vous êtes derrière Cloudflare, le tableau de bord gratuit AI Insights montre l'activité des crawlers IA et les données crawl-to-referral citées dans cet article.
- Google Search Console. Le nouveau rapport de performance IA (juin 2026) est l'endroit où vous verrez les impressions AI Overviews / AI Mode — et où se trouve le bouton d'opt-out.
- Vérifiez l'authenticité. Les user-agents falsifiés sont courants. Recoupez les accès suspects avec les plages d'IP publiées — OpenAI les liste sur
openai.com/gptbot.json,openai.com/searchbot.jsonetopenai.com/chatgpt-user.json.
Le check-up d'hygiène des crawlers en 30 minutes
- Sortez les logs d'accès du dernier mois ; listez chaque user-agent IA qui vous a visité et à quelle fréquence.
- Ouvrez votre
robots.txtactuel. Ne mentionne-t-il encore que GPTBot ? Mettez-le à jour avec la liste des bots de 2026 selon le profil qui correspond à votre objectif. - Assurez-vous de ne pas bloquer par accident
OAI-SearchBot,Claude-SearchBotouPerplexityBot— c'est l'erreur des 71 % d'éditeurs. - Ajoutez une règle WAF pour Bytespider si vos logs le montrent ignorant votre robots.txt.
- Décidez des AI Overviews séparément : laissez-les, ou utilisez l'opt-out de GSC à partir du 17 juin 2026. N'attendez pas de Google-Extended qu'il fasse ce travail.
- Éventuellement, publiez un
llms.txtsi votre stack le génère — puis oubliez-le et allez écrire du contenu.
→ Faites-le maintenant : Ouvrez https://votre-domaine.com/robots.txt dans un navigateur. S'il ne mentionne ni OAI-SearchBot ni Claude-SearchBot, il est dépassé — et vous êtes peut-être invisible aux produits de recherche IA mêmes qu'utilisent vos clients. Choisissez un profil dans le tableau ci-dessus, collez la configuration correspondante, et vous aurez fait plus d'hygiène des crawlers que l'immense majorité des petits sites en 2026.
Lectures associées
- AEO vs SEO en 2026 : pourquoi les moteurs de réponse sont la nouvelle recherche — une fois que les bots de recherche peuvent vous lire, voici comment gagner réellement la citation.
- AI Overviews et SGE : comment les petits sites peuvent encore gagner des clics — les données du dommage de trafic derrière la décision d'opt-out.
- Schema markup pour les petites entreprises — les données structurées qui aident les crawlers que vous avez autorisés à comprendre vos pages.
- SEO technique pour non-développeurs — robots.txt, sitemaps et le reste de la plomberie, en langage clair.
Références et sources
Article également disponible en :