llms.txtCrawlers IAGPTBotClaudeBotrobots.txtSEO technique

llms.txt, GPTBot, ClaudeBot : le guide d'hygiène des crawlers IA pour les petits sites

Les crawlers IA génèrent désormais ~80 % de l'activité des bots sur le web, et la plupart des robots.txt de petits sites ont trois ans de retard. Voici le guide clair de 2026 : ce qu'est vraiment llms.txt (et pourquoi une étude de 300 k domaines a trouvé ~0 % de gain de citations), en quoi il diffère de robots.txt, ce que font GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot et Google-Extended de votre contenu, l'économie crawl-to-referral, le nouvel opt-out IA de Search Console et une configuration par défaut prête à copier.

Par News Factory · 9 juin 2026 · 15 min de lecture
Partager
0:00

Pourquoi votre robots.txt a soudain trois ans de retard

En 2023, il fallait une ligne pour GPTBot. En 2026, un robots.txt moderne a besoin de règles pour une douzaine de bots IA — et le vieux conseil « tout bloquer » est désormais contre-productif.

Si vous gérez un petit site, il y a de bonnes chances que votre robots.txt n'ait pas été touché depuis que vous avez ajouté une seule règle pour GPTBot en 2023 — ou que vous ne l'ayez jamais touché. Cet écart compte plus qu'avant. Mi-2025, les données réseau de Cloudflare ont montré que le crawl lié à l'entraînement avait atteint près de 80 % de toute l'activité des bots IA, contre 72 % un an plus tôt.[3] Les crawlers IA représentent désormais une part notable de ceux qui frappent à la porte de votre serveur chaque jour, et les règles que vous leur donnez décident de deux choses très différentes : si votre contenu entraîne gratuitement le modèle d'un autre, et si vous apparaissez quand un acheteur pose une question à ChatGPT ou Perplexity.

Ce qui rend 2026 véritablement différent, c'est que les grands fournisseurs d'IA ont scindé leur crawler unique en plusieurs. OpenAI n'opère plus un seul bot — il opère GPTBot pour l'entraînement, OAI-SearchBot pour ChatGPT Search et ChatGPT-User pour les récupérations à la demande. Anthropic en opère trois. Conséquence pratique : le réflexe de Disallow: / pour chaque user-agent IA fait désormais deux choses à la fois. Il vous sort des corpus d'entraînement (souvent ce que vous vouliez) et vous efface des réponses de recherche IA (presque jamais ce que vous vouliez). L'analyse par Digital Applied du cadre d'Anthropic rapporte qu'environ 71 % des grands éditeurs de presse bloquent au moins un bot de récupération ou de recherche, souvent en croyant ne bloquer que l'entraînement.[5] C'est exactement l'erreur coûteuse que ce guide vise à éviter.

La phrase qui explique tout le sujet

Il y a deux fichiers distincts qui font deux travaux distincts, et les gens les confondent constamment. robots.txt contrôle l'accès — ce qu'un crawler est autorisé à récupérer — et les grands bots IA le respectent. llms.txt est une suggestion de curation — une liste de lecture recommandée pour les modèles de langage — et aucune grande plateforme IA n'a confirmé le lire. L'un est une serrure. L'autre est un mot collé sur la porte. Traitez-les en conséquence.

Ce qu'est llms.txt — et pourquoi il ne fera sans doute pas grand-chose

Une idée raisonnable presque sans preuve d'adoption derrière elle. Publiez-le si c'est gratuit ; ne bâtissez pas de stratégie dessus.

llms.txt est un fichier Markdown proposé par la communauté que vous placez à la racine de votre domaine (/llms.txt) et qui liste vos pages les plus importantes sous une forme propre et analysable, pour qu'un grand modèle de langage trouve et comprenne votre meilleur contenu sans traverser la navigation, les pubs et les scripts. Il a été proposé par Jeremy Howard, d'Answer.AI, en septembre 2024. L'analogie habituelle est « un sitemap pour LLM », et l'intention est réellement sensée : donner aux modèles une carte curée et peu bruitée de ce qui compte sur votre site, éventuellement avec un /llms-full.txt plus complet qui intègre le contenu réel.

Le problème est l'écart entre l'idée et les preuves. Après dix-huit mois de discussion dans le secteur, les données dégrisent :

  • L'adoption est d'environ un site sur dix. L'étude de SE Ranking sur 300 000 domaines a trouvé un taux d'adoption de 10,13 %, et, point crucial, l'adoption était quasi identique sur les niveaux de trafic faible, moyen et élevé (~9–10 % chacun) — ce ne sont donc pas les sites sophistiqués qui filent devant.[1]
  • Aucun gain mesurable de citations. La même analyse de SE Ranking n'a trouvé aucune différence statistiquement significative dans la fréquence des citations IA entre les sites avec et sans llms.txt. Un modèle entraîné sur les données de citations IA s'est même amélioré quand la variable llms.txt a été retirée.[1]
  • Presque rien ne le lit. Limy.AI a surveillé plus de 500 millions d'événements de bots IA sur 90 jours et n'a trouvé que 408 requêtes visant llms.txt directement.[14] Search Engine Land a suivi 10 sites 90 jours avant et après l'ajout du fichier ; seuls deux ont vu une hausse du trafic IA, et pas à cause du fichier.[2]
  • Aucun soutien officiel. Mi-2026, ni OpenAI, ni Anthropic, ni Google, ni Perplexity n'ont officiellement confirmé que leurs systèmes lisent ou exploitent llms.txt. Cela reste une spécification communautaire, pas un standard adopté.

llms.txt : la réalité adoption vs impact

Un site sur dix l'a ; le bénéfice mesurable jusqu'ici est quasi nul[1][14]

Sites avec un fichier llms.txt (SE Ranking, 300 k domaines)
10.1%
Adoption sur les sites à fort trafic (≈ comme les faibles)
10%
Gain mesurable de citations IA grâce à ce fichier
0%
Plateformes IA confirmant officiellement le lire
0%

Ce n'est pas un argument pour ne jamais publier de llms.txt — il ne coûte presque rien et est compatible avec l'avenir si les plateformes formalisent le support. C'est un argument contre le fait de le traiter comme un levier de croissance. Consacrez-y dix minutes si vous voulez ; ne lui consacrez pas une réunion de stratégie.

L'avis honnête pour un petit site

Publiez un llms.txt si votre CMS ou framework le génère gratuitement — c'est à faible coût et faible risque, et être précoce ne vous coûte rien si la spécification prend de l'ampleur. Mais le fichier que vous devez réellement tenir à jour est robots.txt. C'est celui que les crawlers obéissent vraiment, et celui qui décide si vous êtes (ou non) dans les réponses que lisent vos clients.

robots.txt vs llms.txt : la comparaison honnête

Même répertoire racine, pouvoirs totalement différents. L'un est applicable ; l'autre est une requête polie que personne n'est obligé de lire.

Dimension robots.txt llms.txt
Ce que c'est Un fichier de contrôle d'accès qui indique aux crawlers ce qu'ils peuvent et ne peuvent pas récupérer Un fichier de curation en Markdown qui liste vos meilleures pages pour qu'un LLM les trouve et les analyse
Ancienneté et statut Robots Exclusion Protocol — un standard web vieux de ~30 ans, désormais un RFC de l'IETF Une proposition communautaire de sept. 2024 (Jeremy Howard / Answer.AI). Pas un standard officiel
Emplacement /robots.txt à la racine de votre domaine /llms.txt à la racine de votre domaine (éventuellement un /llms-full.txt plus complet)
Application Respecté par tous les grands crawlers IA (sauf quelques-uns comme Bytespider) Purement consultatif — aucun crawler n'est tenu de le lire ou d'en tenir compte
Qui le consomme vraiment OpenAI, Anthropic, Perplexity, Google et Common Crawl le lisent Aucune grande plateforme IA n'a officiellement confirmé lire llms.txt (mi-2026)
Impact mesuré Contrôle directement si un bot est autorisé à crawler un chemin L'étude de 300 k domaines de SE Ranking n'a trouvé aucun gain significatif de citations
Ce qu'il ne peut pas faire Ne peut pas arrêter un bot non conforme et ne contrôle pas les AI Overviews (index Googlebot) Ne peut rien bloquer — c'est une suggestion, pas une barrière
Vaut-il le coup en 2026 ? Oui — c'est votre vrai levier. Tenez-le à jour avec la liste des bots de 2026 Faible coût, faible risque, faible récompense. Publiez-le si c'est gratuit ; n'en attendez pas de trafic

La conclusion n'est pas « llms.txt est inutile » — c'est que les deux fichiers ne sont pas interchangeables, et que celui qui change vraiment les résultats aujourd'hui est le vieux fichier ennuyeux. Si en 2026 vous n'avez le temps de bien faire qu'un seul fichier, que ce soit robots.txt, avec des règles qui reflètent le paysage actuel des crawlers IA et non la version de 2023.

Le zoo des crawlers IA de 2026 : qui vous rend visite

Chaque moteur IA opère son propre crawler — et la plupart en opèrent deux ou trois, chacun avec un travail distinct et une bonne réponse distincte.

Avant d'écrire une règle sensée, il faut savoir à quoi sert chaque bot. Chaque crawler IA fait l'un de trois travaux : il collecte des pages pour entraîner des modèles, il indexe des pages pour les réponses de recherche IA, ou il récupère une page en temps réel parce qu'un utilisateur a interrogé l'assistant à son sujet à l'instant. Ce sont des relations commerciales distinctes, et en 2026 les grands fournisseurs les exposent enfin comme des bots distincts que vous pouvez contrôler indépendamment.

Les bots que vous verrez le plus

GPTBot ClaudeBot PerplexityBot Google-Extended CCBot Bytespider
Bot Propriétaire But robots.txt ? Décision par défaut 2026
GPTBot OpenAI Entraînement — alimente les futurs modèles GPT Oui Bloquez-le si vous ne voulez pas entraîner des modèles gratuitement ; autorisez-le pour une portée future maximale
OAI-SearchBot OpenAI Indexe les pages pour ChatGPT Search Oui AUTORISER — le bloquer vous retire des réponses de ChatGPT Search
ChatGPT-User OpenAI Récupération à la demande quand un utilisateur ouvre votre URL Oui AUTORISER — le bloquer casse une récupération que l'utilisateur a demandée
ClaudeBot Anthropic Entraînement — alimente le corpus de pré-entraînement de Claude Oui Bloquez-le pour refuser l'entraînement ; c'est le crawler le plus extractif selon le ratio crawl-to-referral
Claude-SearchBot Anthropic Indexe les pages pour l'outil de recherche web de Claude Oui AUTORISER — c'est ainsi que Claude vous cite (nouveau en 2026)
PerplexityBot Perplexity Indexe les pages pour que Perplexity puisse les citer Oui (avec réserve sur le crawl furtif) AUTORISER — Perplexity est le moteur le plus favorable aux citations pour les petits sites
Google-Extended Google Jeton de contrôle — régit l'usage des pages déjà crawlées pour entraîner Gemini/Vertex Oui (c'est un jeton, pas un vrai bot — jamais dans vos logs) Refus optionnel de l'entraînement de Gemini. Ne contrôle PAS les AI Overviews — utilisez le nouveau opt-out de GSC pour cela
CCBot Common Crawl Corpus public qui alimente de nombreux entraîneurs de modèles Oui Bloquez-le pour rester hors du corpus ouvert ; inoffensif si autorisé
Bytespider ByteDance Entraînement — alimente Doubao Non — non-conformité documentée Bloquez-le au niveau WAF / IP — le robots.txt seul ne l'arrête pas

Deux lignes méritent une seconde lecture. Google-Extended n'est pas un vrai crawler — c'est un jeton de contrôle qui n'apparaît jamais dans vos logs serveur comme une requête HTTP. Il régit seulement si Google peut utiliser des pages qu'il a déjà crawlées (avec le Googlebot normal) pour entraîner Gemini et Vertex AI. Et Bytespider (ByteDance) a un historique documenté d'ignorer robots.txt de façon inconstante, raison pour laquelle le bloquer nécessite une règle de pare-feu ou au niveau IP plutôt qu'un poli Disallow.

La distinction qui fait tout le travail

Un crawler d'entraînement transforme votre contenu en poids de modèle pour lesquels vous n'êtes jamais crédité. Un crawler de recherche transforme votre contenu en une réponse citée qui peut vous renvoyer un visiteur. Bloquer le premier tout en autorisant le second est toute la stratégie de 2026 — et ce n'est possible que parce que les fournisseurs ont enfin séparé les deux. GPTBot n'est pas OAI-SearchBot. ClaudeBot n'est pas Claude-SearchBot. Traitez-les comme un seul groupe et vous vous effacez du canal de référence à la croissance la plus rapide de l'année.
Infographie : la matrice de décision des robots d'IA en 2026 — ce que fait chaque bot (GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot, Google-Extended, CCBot, Bytespider) et la recommandation autoriser/bloquer pour un petit site

L'économie : perte de trafic vs perte de citations

La décision de bloquer ou d'autoriser est en réalité un arbitrage entre deux types de perte. Le ratio crawl-to-referral de Cloudflare est le chiffre qui le cadre.

L'argument économique pour bloquer les crawlers d'entraînement se résume à un seul ratio : combien de vos pages un bot crawle pour chaque visiteur qu'il vous renvoie. Cloudflare publie ce ratio crawl-to-referral sur son réseau, et l'écart entre fournisseurs est extraordinaire. Le Googlebot traditionnel tourne autour de 5 pages crawlées par referral. Le ClaudeBot d'Anthropic, à son pic de juin 2025, crawlait environ 70 900 pages pour chaque visiteur qu'il renvoyait — une asymétrie qui redéfinit l'accès d'entraînement comme une extraction de valeur à sens unique.[5]

Ratio crawl-to-referral — pages crawlées par visiteur renvoyé

Plus c'est bas, plus c'est équitable pour l'éditeur. Les crawlers d'entraînement prennent bien plus qu'ils ne donnent[3][5][9]

ClaudeBot / Anthropic (pic, juin 2025)
70900:1
ClaudeBot / Anthropic (juil. 2025)
38000:1
GPTBot / OpenAI
1276:1
PerplexityBot
194:1
Googlebot (recherche classique)
5:1
DuckDuckGo (quasi-parité)
1.5:1

Les barres sont sur une seule échelle linéaire, c'est pourquoi tout ce qui est sous ClaudeBot paraît minuscule — c'est le but. Le pic de ClaudeBot (~70 900:1) et GPTBot (1 276:1) écrasent Googlebot (~5:1) et DuckDuckGo (~1,5:1). En juillet 2025, Anthropic s'était amélioré à ~38 000:1 et Perplexity était à 194:1, mais l'écart reste énorme.

Mais il y a un piège qui empêche « bloquez simplement les bots d'entraînement » d'être gratuit, et c'est la nuance la plus importante de tout cet article. Le blocage a des effets secondaires sur les citations. L'analyse d'AuthorityTech de 2026 a trouvé que les sites qui bloquent Google-Extended sont bien moins susceptibles d'être cités par les moteurs génératifs — même dans les AI Overviews, où Google conserve techniquement l'accès au contenu via l'index normal.[11] Et les données de ppc.land montrent que le blocage est poreux dans l'autre sens aussi : bloquer les crawlers IA n'arrête pas de façon fiable les citations, car les moteurs puisent dans des chemins alternatifs, des citations tierces et des copies en cache.[10] Vous pouvez perdre l'avantage de visibilité sans gagner pleinement la confidentialité pour laquelle vous avez bloqué.

De l'autre côté de la balance se trouve le dommage de trafic qui pousse les gens à bloquer en premier lieu. Les AI Overviews de Google ont mesurablement réduit le trafic de référence : Digital Content Next rapporte des baisses de trafic de 1–25 % pour les membres, avec une moyenne d'environ 25 %, et les taux de clic chutent de 34,5 % à 79 % quand un AI Overview apparaît, selon le type de requête.[8] Les éditeurs interrogés par ppc.land anticipent une baisse de trafic supplémentaire de 43 % sur les trois prochaines années.[10] Quand l'IA prend votre trafic tout en vous crawlant 70 000 contre 1, l'envie de relever le pont-levis est compréhensible.

Ce que les AI Overviews font au trafic des petits sites

Le dommage qui pousse les propriétaires à bloquer — et pourquoi la décision semble urgente[8][10]

Chute du CTR organique quand un AI Overview apparaît (max.)
79%
Baisse de trafic supplémentaire attendue sur 3 ans (éditeurs)
43%
Chute du CTR quand un AI Overview apparaît (min.)
34.5%
Baisse moyenne du trafic des membres (Digital Content Next)
25%
Sites du top 1000 qui bloquent GPTBot
25%

Près d'un quart des 1 000 plus grands sites bloquent désormais GPTBot. Mais notez ce que bloquer GPTBot seul ne fait pas : cela ne vous retire pas des AI Overviews (index différent), et cela n'empêche pas ChatGPT Search de vous citer (c'est OAI-SearchBot). Le dommage de trafic et le crawler que vous bloquez ne sont souvent même pas liés.

La part des crawlers IA se concentre autour de deux acteurs

GPTBot et ClaudeBot ont plus que doublé leur part de crawl IA ; Bytespider s'est effondré[3]

GPTBot — part actuelle (était 4,7 %)
11.7%
ClaudeBot — part actuelle (était 6 %)
10%
Claude-SearchBot — nouveau (mai 2026)
2%
Bytespider — part actuelle (était 14,1 %)
2.4%

Entre 2024 et mi-2025, la part de crawl IA de GPTBot est passée de 4,7 % à 11,7 % et celle de ClaudeBot de 6 % à ~10 %, tandis que le Bytespider de ByteDance chutait de 14,1 % à 2,4 %. En mai 2026, le Claude-SearchBot dédié d'Anthropic est apparu à 2,00 % de part — la première fois que le crawler de recherche d'un grand fournisseur apparaît comme un acteur distinct et de taille notable.

Infographie : l'économie du blocage des robots d'IA — ratios crawl-to-referral (ClaudeBot ~70 900:1, GPTBot ~1 276:1, PerplexityBot ~194:1, Googlebot ~5:1) et le gain de ~0 % en citations de llms.txt malgré ~10 % d'adoption

Le nouvel opt-out de Google — et pourquoi Google-Extended ne l'est pas

Le contrôle que les éditeurs réclamaient depuis deux ans est enfin arrivé en juin 2026. Ce n'est pas la même chose que Google-Extended, et la différence compte.

Pendant deux ans, la question la plus posée sur les crawlers IA était une version de : « Comment apparaître dans la recherche Google normale mais pas dans les AI Overviews ? ». Jusqu'en juin 2026, la réponse honnête était « vous ne pouvez pas ». Google-Extended — le jeton vers lequel la plupart se tournaient — ne contrôle que si Google entraîne Gemini et Vertex AI sur vos pages déjà crawlées. Il n'a jamais contrôlé les AI Overviews ni l'AI Mode, qui puisent dans l'index standard de Googlebot. Bloquer Google-Extended ne faisait rien pour vous tenir hors des résumés IA qui mangeaient réellement vos clics.[8]

Cela a changé le 3 juin 2026, quand Google a lancé un rapport de performance IA dans Search Console accompagné d'un bouton d'opt-out qui permet aux éditeurs de retirer du contenu des AI Overviews et de l'AI Mode sans perdre le classement de recherche standard.[6] Le réglage prend effet le 17 juin 2026, quand Google commence à agir sur le signal, et l'activer n'affecte pas votre position dans les résultats Google normaux.[7] Deux nuances à relire deux fois : l'application Gemini est exclue de cet opt-out (c'est un produit distinct), et choisir de sortir signifie accepter que disparaisse aussi la citation/visibilité que vous tiriez des AIO.

Ce que fait chaque levier de Google

  • Google-Extended (jeton robots.txt) → refus de l'entraînement Gemini / Vertex. Ne vous retire pas des AI Overviews.
  • Bouton d'opt-out IA de GSC (effectif le 17 juin 2026) → retire le contenu des AI Overviews et de l'AI Mode, conserve le classement normal. Exclut l'application Gemini.
  • Disallow Googlebot → option nucléaire ; vous retire entièrement de Google, y compris la recherche normale qui envoie de vrais clics. Presque jamais le bon choix.

La configuration par défaut recommandée pour 2026

Trois profils, une décision. Choisissez celui qui correspond à votre objectif et copiez le robots.txt ci-dessous.

Il n'y a pas une seule configuration correcte — il y a une configuration correcte pour votre objectif. Voici les trois profils qui couvrent presque tous les petits sites, de « je veux être dans chaque réponse » à « tenez-moi hors de l'IA entièrement ».

Profil Pour qui Bots d'entraînement Bots de recherche Pourquoi
Visibilité maximale La plupart des petits sites, blogs, commerces locaux Tout autoriser Tout autoriser Vous voulez être dans chaque réponse. Le coût de bande passante est négligeable à petite échelle, et bloquer l'entraînement a des effets secondaires mesurables sur les citations.
Bloquer l'entraînement, garder les citations Éditeurs, sites de recherche originale, quiconque refuse l'extraction unilatérale Bloquer GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended, Bytespider (WAF) Autoriser OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User Le réglage par défaut de consensus en 2026 pour les sites de contenu : stopper l'extraction à sens unique, garder ouvert le canal de citations.
Hors des réponses IA entièrement Contenu payant, sur abonnement ou juridiquement sensible Bloquer tous les bots d'entraînement Bloquer tous les bots de recherche/réponse + activer le nouveau opt-out de GSC (effectif le 17 juin 2026) Vous acceptez la perte de citations pour garder le contenu hors des surfaces IA. Le classement standard de Google n'est pas affecté par le bouton de GSC.

Pour la plupart des petits sites, la recommandation honnête est le Profil 1 — tout autoriser. Votre objectif est la visibilité, le coût de bande passante du crawl IA est négligeable à petite échelle, et bloquer les crawlers d'entraînement comporte des effets secondaires sur les citations que vous ne pouvez pas entièrement prévoir. Le profil « bloquer l'entraînement, garder les citations » (Profil 2) est le bon réglage par défaut pour les sites de contenu, les éditeurs et quiconque publie de la recherche originale et refuse réellement l'extraction unilatérale. Le Profil 3 est réservé au contenu payant, sur abonnement ou juridiquement sensible.

L'hygiène des crawlers ouvre la porte — le contenu la rend digne d'être franchie

Bien régler votre hygiène des crawlers ne fait qu'ouvrir la porte : cela décide si GPTBot, OAI-SearchBot, ClaudeBot et PerplexityBot sont seulement autorisés à vous lire. Ce qu'ils trouvent une fois entrés est l'autre moitié du travail. Les moteurs de réponse IA privilégient le contenu frais et régulièrement mis à jour, et un site qui publie une fois par trimestre donne à un bot de recherche qui revient presque rien de nouveau à citer. Ce rythme de publication continu est exactement ce qu'automatise News Factory : à partir du plan Pro, ses agents IA surveillent les flux RSS du secteur, rédigent des articles complets et publient automatiquement sur WordPress, Drupal ou Joomla selon un calendrier que vous définissez — vous approuvez chaque publication ou laissez les agents travailler seuls — dans jusqu'à cinq langues. Il ne touche pas à votre robots.txt (cette partie reste entre vos mains, exactement comme le décrit ce guide), mais il alimente le côté contenu de l'équation des citations, pour que les crawlers que vous venez d'autoriser aient toujours quelque chose d'actuel à rapporter.

Comment voir quels bots vous visitent réellement

Avant de bloquer quoi que ce soit, regardez vos logs. Vous optimisez peut-être pour un crawler qui ne vient jamais — ou vous en bloquez un qui génère toutes vos citations.

Les règles écrites à l'aveugle sont des suppositions. Consacrez vingt minutes à regarder qui vous crawle réellement avant de changer une seule ligne, car le paysage des bots varie énormément selon la niche. Voici la pile de surveillance pratique, du moins cher au plus :

  • Logs d'accès serveur / CDN. Filtrez par user-agent pour GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot, CCBot et Bytespider. Cela vous indique la fréquence et les pages que chaque bot touche. Note : Google-Extended n'apparaîtra jamais — c'est un jeton, pas une requête.
  • Cloudflare Radar AI Insights. Si vous êtes derrière Cloudflare, le tableau de bord gratuit AI Insights montre l'activité des crawlers IA et les données crawl-to-referral citées dans cet article.
  • Google Search Console. Le nouveau rapport de performance IA (juin 2026) est l'endroit où vous verrez les impressions AI Overviews / AI Mode — et où se trouve le bouton d'opt-out.
  • Vérifiez l'authenticité. Les user-agents falsifiés sont courants. Recoupez les accès suspects avec les plages d'IP publiées — OpenAI les liste sur openai.com/gptbot.json, openai.com/searchbot.json et openai.com/chatgpt-user.json.

Le check-up d'hygiène des crawlers en 30 minutes

  1. Sortez les logs d'accès du dernier mois ; listez chaque user-agent IA qui vous a visité et à quelle fréquence.
  2. Ouvrez votre robots.txt actuel. Ne mentionne-t-il encore que GPTBot ? Mettez-le à jour avec la liste des bots de 2026 selon le profil qui correspond à votre objectif.
  3. Assurez-vous de ne pas bloquer par accident OAI-SearchBot, Claude-SearchBot ou PerplexityBot — c'est l'erreur des 71 % d'éditeurs.
  4. Ajoutez une règle WAF pour Bytespider si vos logs le montrent ignorant votre robots.txt.
  5. Décidez des AI Overviews séparément : laissez-les, ou utilisez l'opt-out de GSC à partir du 17 juin 2026. N'attendez pas de Google-Extended qu'il fasse ce travail.
  6. Éventuellement, publiez un llms.txt si votre stack le génère — puis oubliez-le et allez écrire du contenu.

→ Faites-le maintenant : Ouvrez https://votre-domaine.com/robots.txt dans un navigateur. S'il ne mentionne ni OAI-SearchBot ni Claude-SearchBot, il est dépassé — et vous êtes peut-être invisible aux produits de recherche IA mêmes qu'utilisent vos clients. Choisissez un profil dans le tableau ci-dessus, collez la configuration correspondante, et vous aurez fait plus d'hygiène des crawlers que l'immense majorité des petits sites en 2026.

Lectures associées

Références et sources

[1] SE Ranking. « LLMs.txt : pourquoi les marques s'y fient et pourquoi ça ne marche pas » (nov. 2025) — étude de 300 000 domaines. ~10,13 % d'adoption, quasi identique sur tous les niveaux de trafic ; aucune différence statistiquement significative de citations IA entre les sites avec et sans llms.txt. seranking.com →
[2] Search Engine Land. « llms.txt compte-t-il ? Nous avons suivi 10 sites pour le savoir » (20 janv. 2026) — analyse avant/après sur 90 jours pour 10 sites. Seuls deux ont vu une hausse du trafic IA, non imputable au fichier. searchengineland.com →
[3] Cloudflare. « The crawl-to-click gap » (29 août 2025) — l'entraînement représente désormais ~80 % du crawl IA (contre 72 %) ; GPTBot 4,7 %→11,7 %, ClaudeBot 6 %→~10 %, Bytespider 14,1 %→2,4 % ; Anthropic 38 000 crawls par referral en juillet, Perplexity 194:1, Googlebot ~5:1. blog.cloudflare.com →
[4] Soar Agency. « Comment les bots IA crawlent votre site : un guide robots.txt pour GPTBot, ClaudeBot et PerplexityBot » — propriétaire, but, user-agent et conformité robots.txt de chaque bot du paysage 2026. soar.sh →
[5] Digital Applied. « AI Crawler Access Control: The 2026 Decision Matrix » (4 juin 2026) — la distinction bot d'entraînement vs indexeur de recherche ; économie crawl-to-referral de Cloudflare (Anthropic pic ~70 900:1, Googlebot ~5:1) ; ~71 % des grands éditeurs de presse bloquent au moins un bot de récupération/recherche, souvent par erreur. digitalapplied.com →
[6] Digital Applied. « GSC AI Reports : faut-il bloquer les réponses IA de Google ? » (3 juin 2026) — le rapport de performance IA dans Search Console et le bouton d'opt-out qui retire le contenu des AI Overviews et de l'AI Mode sans perdre le classement standard. digitalapplied.com →
[7] TechTimes. « L'opt-out des AI Overviews de Google arrive dans Search Console : Gemini exclu » (8 juin 2026) — le signal d'opt-out prend effet le 17 juin 2026 ; l'activer n'affecte pas le classement standard ; l'application Gemini est exclue de l'opt-out. techtimes.com →
[8] ALM Corp. « Google AI Overviews Opt-Out : guide des contrôles pour les éditeurs 2026 » (28 janv. 2026) — Digital Content Next : baisses de trafic de 1–25 % (moyenne ~25 %) ; le CTR chute de 34,5 à 79 % quand des AI Overviews apparaissent ; Google-Extended ne contrôle pas l'inclusion dans les AI Overviews. almcorp.com →
[9] SEOmator. « GEO Data Report 2026 : quels crawlers IA et bots LLM prennent le plus » — analyse de Cloudflare Radar : ClaudeBot ~13 528–23 951 pages par referral ; GPTBot 1 276:1 ; détail crawl-to-refer par moteur. seomator.com →
[10] ppc.land. « Bloquer les crawlers IA n'arrête pas les citations — de nouvelles données expliquent pourquoi » (6 avr. 2026) — les éditeurs anticipent une baisse de trafic supplémentaire de 43 % sur trois ans ; le blocage est poreux car les moteurs citent par des chemins alternatifs. ppc.land →
[11] AuthorityTech. « Les AI Overviews de Google réduisent le trafic de 15 % — ce qui gagne des citations (2026) » — les sites qui bloquent Google-Extended sont bien moins susceptibles d'être cités par les moteurs génératifs, même dans les AI Overviews. authoritytech.io →
[12] OpenAI. « Overview of OpenAI Crawlers » — documentation officielle de GPTBot (entraînement), OAI-SearchBot (ChatGPT Search) et ChatGPT-User (récupération initiée par l'utilisateur), avec user-agents et plages d'IP publiées. platform.openai.com →
[13] Anthropic. « Anthropic crawle-t-il des données du web, et comment les propriétaires de sites peuvent-ils le bloquer ? » — documente ClaudeBot (entraînement), Claude-SearchBot (index de recherche) et Claude-User (initié par l'utilisateur) ; Anthropic s'engage à respecter robots.txt. privacy.claude.com →
[14] Elementera AI. « Qu'est-ce que llms.txt et comment l'implémenter pour les bots IA (guide 2026) » — Limy.AI a surveillé plus de 500 M d'événements de bots IA en 90 jours et seules 408 requêtes visaient llms.txt ; estimation de 5–15 % d'adoption début 2026. elementera.com →
Partager