O que é o llms.txt e é o mesmo que o robots.txt?

O llms.txt é um ficheiro Markdown proposto pela comunidade, colocado na raiz do domínio (/llms.txt), que lista as suas páginas mais importantes de forma limpa e analisável para que um modelo de linguagem de grande dimensão encontre e compreenda o seu melhor conteúdo. Não é o mesmo que o robots.txt. O robots.txt é um padrão de controlo de acesso de ~30 anos que diz aos rastreadores o que podem e não podem descarregar, e os grandes rastreadores de IA respeitam-no. O llms.txt é pura curadoria consultiva — nenhuma grande plataforma de IA confirmou oficialmente que lê o ficheiro, e um estudo da SE Ranking com 300.000 domínios não encontrou aumento estatisticamente significativo de citações de IA. O robots.txt é a sua verdadeira alavanca de controlo; o llms.txt é de baixo custo e baixa recompensa.

Um site pequeno deve bloquear o GPTBot e o ClaudeBot em 2026?

Depende do seu objetivo. O GPTBot e o ClaudeBot são rastreadores de treino — bloqueá-los mantém o seu conteúdo fora do treino de futuros modelos mas não impede que apareça nas respostas de busca de IA, que dependem de bots distintos (OAI-SearchBot, Claude-SearchBot). Para a maioria dos sites pequenos cujo objetivo é a visibilidade, permitir tudo é a escolha mais simples, porque bloquear os rastreadores de treino tem efeitos secundários mensuráveis nas citações. Para editores e sites de investigação original que recusam a extração unilateral, o consenso de 2026 é bloquear os bots de treino permitindo os de busca e recuperação.

O Google-Extended impede o meu conteúdo de aparecer nos AI Overviews?

Não. O Google-Extended é um token de controlo que apenas rege se o Google pode usar páginas já rastreadas para treinar o Gemini e o Vertex AI. Não controla se o seu conteúdo aparece nos AI Overviews ou no AI Mode, que recorrem ao índice normal do Googlebot. Para retirar conteúdo dos AI Overviews e do AI Mode, o Google lançou um botão de opt-out separado na Search Console a 3 de junho de 2026, em vigor a 17 de junho de 2026 — e usá-lo não afeta o seu ranking de busca padrão. A app Gemini fica excluída desse opt-out.

llms.txt, GPTBot, ClaudeBot: o guia de higiene de rastreadores de IA para sites pequenos

Porque o seu robots.txt está de repente três anos desatualizado

Em 2023 bastava uma linha para o GPTBot. Em 2026 um robots.txt moderno precisa de regras para uma dúzia de bots de IA — e o velho conselho de «bloquear toda a IA» é agora contraproducente.

Se gere um site pequeno, há boas hipóteses de o seu robots.txt não ser tocado desde que adicionou uma única regra para o GPTBot em 2023 — ou de nunca o ter tocado. Essa lacuna importa mais do que antes. Em meados de 2025, os dados de rede da Cloudflare mostraram que o rastreio ligado ao treino tinha crescido para cerca de 80% de toda a atividade de bots de IA, face a 72% um ano antes.^[3] Os rastreadores de IA são já uma fatia significativa de quem bate à porta do seu servidor todos os dias, e as regras que lhes der decidem duas coisas muito diferentes: se o seu conteúdo treina de graça o modelo de outra pessoa, e se aparece quando um comprador faz uma pergunta ao ChatGPT ou à Perplexity.

O que torna 2026 genuinamente diferente é que os grandes fornecedores de IA dividiram o seu rastreador único em vários. A OpenAI já não opera um só bot — opera o GPTBot para treino, o OAI-SearchBot para o ChatGPT Search e o ChatGPT-User para buscas sob demanda. A Anthropic opera três. A consequência prática: o reflexo de Disallow: / para cada user-agent de IA faz agora dois trabalhos ao mesmo tempo. Tira-o dos corpora de treino (muitas vezes o que queria) e apaga-o das respostas de busca de IA (quase nunca o que queria). A análise da Digital Applied ao quadro da Anthropic relata que cerca de 71% dos grandes editores de notícias bloqueiam pelo menos um bot de recuperação ou busca, frequentemente com a intenção de bloquear apenas o treino.^[5] É exatamente o erro caro que este guia foi feito para evitar.

A frase que explica todo o tema

Há dois ficheiros distintos a fazer dois trabalhos distintos, e as pessoas confundem-nos constantemente. O robots.txt controla o acesso — o que um rastreador pode descarregar — e os grandes bots de IA respeitam-no. O llms.txt é uma sugestão de curadoria — uma lista de leitura recomendada para modelos de linguagem — e nenhuma grande plataforma de IA confirmou que lê o ficheiro. Um é uma fechadura. O outro é um post-it na porta. Trate-os em conformidade.

O que é o llms.txt — e porque provavelmente fará pouco

Uma ideia razoável com quase nenhuma prova de adoção por trás. Publique-o se for barato; não construa uma estratégia sobre ele.

O llms.txt é um ficheiro Markdown proposto pela comunidade que coloca na raiz do seu domínio (/llms.txt) e que lista as suas páginas mais importantes de forma limpa e analisável, para que um modelo de linguagem de grande dimensão encontre e compreenda o seu melhor conteúdo sem atravessar navegação, anúncios e scripts. Foi proposto por Jeremy Howard, da Answer.AI, em setembro de 2024. A analogia habitual é «um sitemap para LLMs», e a intenção é genuinamente sensata: dar aos modelos um mapa curado e de baixo ruído do que importa no seu site, opcionalmente com um /llms-full.txt mais completo que incorpora o conteúdo real.

O problema é a distância entre a ideia e a evidência. Após dezoito meses de conversa no setor, os dados são sóbrios:

A adoção é de cerca de um em cada dez sites. O estudo da SE Ranking com 300.000 domínios encontrou uma taxa de adoção de 10,13%, e, crucialmente, a adoção foi quase idêntica nos níveis de tráfego baixo, médio e alto (~9–10% cada) — por isso não são os sites sofisticados que correm à frente.^[1]
Sem aumento mensurável de citações. A mesma análise da SE Ranking não encontrou diferença estatisticamente significativa na frequência de citações de IA entre sites com e sem llms.txt. Um modelo treinado com dados de citações de IA até melhorou quando a variável llms.txt foi removida.^[1]
Quase nada o lê. A Limy.AI monitorizou mais de 500 milhões de eventos de bots de IA em 90 dias e encontrou apenas 408 pedidos dirigidos diretamente ao llms.txt.^[14] A Search Engine Land seguiu 10 sites 90 dias antes e depois de adicionar o ficheiro; só dois viram aumentos de tráfego de IA, e não por causa do ficheiro.^[2]
Sem suporte oficial. Em meados de 2026, nem a OpenAI, nem a Anthropic, nem a Google, nem a Perplexity confirmaram oficialmente que os seus sistemas leem ou agem sobre o llms.txt. Continua a ser uma especificação da comunidade, não um padrão adotado.

llms.txt: a realidade de adoção vs impacto

Um em cada dez sites tem-no; o benefício mensurável até agora é quase zero[1][14]

Sites com um ficheiro llms.txt (SE Ranking, 300 mil domínios)

10.1%

Adoção em sites de tráfego alto (≈ igual aos de baixo)

10%

Aumento mensurável de citações de IA por tê-lo

Plataformas de IA que confirmam oficialmente que o leem

Isto não é um argumento contra publicar alguma vez um llms.txt — custa quase nada e é compatível com o futuro se as plataformas formalizarem o suporte. É um argumento contra tratá-lo como uma alavanca de crescimento. Dedique-lhe os dez minutos se quiser; não lhe dedique uma reunião de estratégia.

A opinião honesta para um site pequeno

Publique um llms.txt se o seu CMS ou framework o gerar de graça — é de baixo custo e baixo risco, e ser precoce não lhe custa nada se a especificação ganhar tração. Mas o ficheiro que deve mesmo manter atualizado é o robots.txt. É esse que os rastreadores obedecem de facto, e é esse que decide se está (ou não) nas respostas que os seus clientes estão a ler.

robots.txt vs llms.txt: a comparação honesta

Mesmo diretório raiz, poderes completamente diferentes. Um é aplicável; o outro é um pedido cortês que ninguém é obrigado a ler.

Dimensão	robots.txt	llms.txt
O que é	Um ficheiro de controlo de acesso que diz aos rastreadores o que podem e não podem descarregar	Um ficheiro de curadoria em Markdown que lista as suas melhores páginas para um LLM as encontrar e analisar
Idade e estatuto	Robots Exclusion Protocol — um padrão web de ~30 anos, agora um RFC do IETF	Uma proposta da comunidade de set 2024 (Jeremy Howard / Answer.AI). Não é um padrão oficial
Localização	/robots.txt na raiz do seu domínio	/llms.txt na raiz do seu domínio (opcionalmente um /llms-full.txt mais completo)
Aplicação	Respeitado por todos os grandes rastreadores de IA (exceto alguns como o Bytespider)	Apenas consultivo — nenhum rastreador é obrigado a lê-lo ou a agir sobre ele
Quem o consome de facto	OpenAI, Anthropic, Perplexity, Google e Common Crawl leem-no	Nenhuma grande plataforma de IA confirmou oficialmente que lê o llms.txt (meados de 2026)
Impacto medido	Controla diretamente se um bot pode rastrear um caminho	O estudo de 300 mil domínios da SE Ranking não encontrou aumento significativo de citações
O que não pode fazer	Não pode travar um bot incumpridor e não controla os AI Overviews (índice do Googlebot)	Não pode bloquear nada — é uma sugestão, não um portão
Vale a pena em 2026?	Sim — é a sua verdadeira alavanca. Mantenha-o atualizado com a lista de bots de 2026	Baixo custo, baixo risco, baixa recompensa. Publique-o se for barato; não espere tráfego dele

A conclusão não é «o llms.txt é inútil» — é que os dois ficheiros não são intercambiáveis, e o que realmente muda resultados hoje é o aborrecido e antigo. Se em 2026 só tiver tempo de pôr um ficheiro em ordem, que seja o robots.txt, com regras que reflitam o panorama atual de rastreadores de IA e não a versão de 2023.

O zoo de rastreadores de IA de 2026: quem o visita

Cada motor de IA opera o seu próprio rastreador — e a maioria opera dois ou três, cada um com um trabalho distinto e uma resposta certa distinta.

Antes de escrever uma regra sensata, precisa de saber para que serve cada bot. Cada rastreador de IA faz um de três trabalhos: recolhe páginas para treinar modelos, indexa páginas para respostas de busca de IA, ou busca uma página em tempo real porque um utilizador perguntou ao assistente sobre ela agora mesmo. São relações comerciais distintas, e em 2026 os grandes fornecedores finalmente expõem-nas como bots distintos que pode controlar de forma independente.

Os bots que verá mais

GPTBotClaudeBotPerplexityBotGoogle-ExtendedCCBotBytespider

Bot	Proprietário	Propósito	robots.txt?	Decisão predefinida 2026
`GPTBot`	OpenAI	Treino — alimenta os futuros modelos GPT	Sim	Bloqueie se não quiser treinar modelos de graça; permita para o máximo alcance futuro
`OAI-SearchBot`	OpenAI	Indexa páginas para o ChatGPT Search	Sim	PERMITIR — bloqueá-lo remove-o das respostas do ChatGPT Search
`ChatGPT-User`	OpenAI	Busca sob demanda quando um utilizador abre o seu URL	Sim	PERMITIR — bloqueá-lo quebra uma busca que o utilizador pediu
`ClaudeBot`	Anthropic	Treino — alimenta o corpus de pré-treino do Claude	Sim	Bloqueie para recusar o treino; é o rastreador mais extrativo pelo rácio crawl-to-referral
`Claude-SearchBot`	Anthropic	Indexa páginas para a ferramenta de busca web do Claude	Sim	PERMITIR — é assim que o Claude o cita (novo em 2026)
`PerplexityBot`	Perplexity	Indexa páginas para a Perplexity as poder citar	Sim (com ressalva de rastreio furtivo)	PERMITIR — a Perplexity é o motor mais favorável às citações para sites pequenos
`Google-Extended`	Google	Token de controlo — rege o uso de páginas já rastreadas para treinar o Gemini/Vertex	Sim (é um token, não um bot real — nunca nos seus logs)	Recusa opcional do treino do Gemini. NÃO controla os AI Overviews — use o novo opt-out do GSC para isso
`CCBot`	Common Crawl	Corpus público que alimenta muitos treinadores de modelos	Sim	Bloqueie para ficar fora do corpus aberto; inofensivo se permitido
`Bytespider`	ByteDance	Treino — alimenta o Doubao	Não — incumprimento documentado	Bloqueie ao nível de WAF / IP — o robots.txt sozinho não o trava

Duas linhas merecem uma segunda leitura. O Google-Extended não é de todo um rastreador real — é um token de controlo que nunca aparece nos seus logs de servidor como um pedido HTTP. Apenas rege se o Google pode usar páginas que já rastreou (com o Googlebot normal) para treinar o Gemini e o Vertex AI. E o Bytespider (ByteDance) tem um historial documentado de ignorar o robots.txt de forma inconsistente, razão pela qual bloqueá-lo requer uma regra de firewall ou ao nível de IP em vez de um cortês Disallow.

A distinção que faz todo o trabalho

Um rastreador de treino transforma o seu conteúdo em pesos de modelo pelos quais nunca é creditado. Um rastreador de busca transforma o seu conteúdo numa resposta citada que lhe pode devolver um visitante. Bloquear o primeiro e permitir o segundo é toda a estratégia de 2026 — e só é possível porque os fornecedores finalmente separaram os dois. O GPTBot não é o OAI-SearchBot. O ClaudeBot não é o Claude-SearchBot. Trate-os como um único grupo e apaga-se do canal de referência que mais cresce no ano.

Infográfico: a matriz de decisão de rastreadores de IA em 2026 — o que cada bot faz (GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot, Google-Extended, CCBot, Bytespider) e a recomendação de permitir ou bloquear para um site pequeno

A economia: perda de tráfego vs perda de citações

A decisão de bloquear ou permitir é na verdade um compromisso entre dois tipos de perda. O rácio crawl-to-referral da Cloudflare é o número que o enquadra.

O argumento de negócio para bloquear os rastreadores de treino resume-se a um único rácio: quantas das suas páginas um bot rastreia por cada visitante que lhe envia de volta. A Cloudflare publica este rácio crawl-to-referral na sua rede, e a dispersão entre fornecedores é extraordinária. O Googlebot tradicional ronda as 5 páginas rastreadas por referral. O ClaudeBot da Anthropic, no seu pico de junho de 2025, rastreava cerca de 70.900 páginas por cada visitante que referia de volta — uma assimetria que reformula o acesso de treino como uma extração de valor unilateral.^[5]

Rácio crawl-to-referral — páginas rastreadas por 1 visitante enviado de volta

Quanto mais baixo, mais justo para o editor. Os rastreadores de treino levam muito mais do que dão[3][5][9]

ClaudeBot / Anthropic (pico, jun 2025)

70900:1

ClaudeBot / Anthropic (jul 2025)

38000:1

GPTBot / OpenAI

1276:1

PerplexityBot

194:1

Googlebot (busca clássica)

5:1

DuckDuckGo (quase paridade)

1.5:1

As barras estão numa única escala linear, por isso tudo o que está abaixo do ClaudeBot parece minúsculo — esse é o ponto. O pico do ClaudeBot (~70.900:1) e o GPTBot (1.276:1) empequenecem o Googlebot (~5:1) e o DuckDuckGo (~1,5:1). Em julho de 2025 a Anthropic tinha melhorado para ~38.000:1 e a Perplexity estava em 194:1, mas a diferença continua enorme.

Mas há uma armadilha que impede que «basta bloquear os bots de treino» seja gratuito, e é a nuance mais importante de todo este artigo. O bloqueio tem efeitos secundários nas citações. A análise da AuthorityTech de 2026 concluiu que os sites que bloqueiam o Google-Extended têm muito menos probabilidade de serem citados pelos motores generativos — mesmo nos AI Overviews, onde o Google tecnicamente mantém o acesso ao conteúdo através do índice normal.^[11] E os dados da ppc.land mostram que o bloqueio é poroso também na outra direção: bloquear rastreadores de IA não trava de forma fiável as citações, porque os motores recorrem a caminhos alternativos, citações de terceiros e cópias em cache.^[10] Pode perder o benefício de visibilidade sem ganhar plenamente a privacidade pela qual bloqueou.

Do outro lado da balança está o dano de tráfego que empurra as pessoas a bloquear em primeiro lugar. Os AI Overviews do Google cortaram mensuravelmente o tráfego de referência: a Digital Content Next relata quedas de tráfego de 1–25% para os membros, com média à volta dos 25%, e as taxas de cliques caem entre 34,5% e 79% quando surge um AI Overview, consoante o tipo de consulta.^[8] Os editores inquiridos pela ppc.land esperam uma queda adicional de tráfego de 43% nos próximos três anos.^[10] Quando a IA lhe tira tráfego e ao mesmo tempo o rastreia 70.000 para 1, a vontade de levantar a ponte levadiça é compreensível.

O que os AI Overviews fazem ao tráfego dos sites pequenos

O dano que empurra os donos a bloquear — e porque a decisão parece urgente[8][10]

Queda do CTR orgânico quando surge um AI Overview (máx.)

79%

Queda de tráfego extra esperada em 3 anos (editores)

43%

Queda do CTR quando surge um AI Overview (mín.)

34.5%

Queda média de tráfego dos membros (Digital Content Next)

25%

Sites do top-1000 que bloqueiam o GPTBot

25%

Cerca de um quarto dos 1.000 maiores sites bloqueia agora o GPTBot. Mas repare no que bloquear só o GPTBot não faz: não o remove dos AI Overviews (índice diferente), e não impede o ChatGPT Search de o citar (isso é o OAI-SearchBot). O dano de tráfego e o rastreador que bloqueia muitas vezes nem sequer estão ligados.

A quota de rastreadores de IA consolida-se à volta de dois atores

O GPTBot e o ClaudeBot mais do que duplicaram a sua quota de rastreio de IA; o Bytespider desabou[3]

GPTBot — quota atual (era 4,7%)

11.7%

ClaudeBot — quota atual (era 6%)

10%

Claude-SearchBot — novo (mai 2026)

Bytespider — quota atual (era 14,1%)

2.4%

Entre 2024 e meados de 2025, a quota de rastreio de IA do GPTBot subiu de 4,7% para 11,7% e a do ClaudeBot de 6% para ~10%, enquanto o Bytespider da ByteDance caiu de 14,1% para 2,4%. Em maio de 2026, o dedicado Claude-SearchBot da Anthropic apareceu com 2,00% de quota — a primeira vez que o rastreador de busca de um grande fornecedor surge como um ator distinto e de dimensão notável.

Infográfico: a economia de bloquear rastreadores de IA — rácios crawl-to-referral (ClaudeBot ~70.900:1, GPTBot ~1.276:1, PerplexityBot ~194:1, Googlebot ~5:1) e a melhoria de ~0% nas citações do llms.txt apesar de ~10% de adoção

O novo opt-out do Google — e porque o Google-Extended não o é

O controlo que os editores pediam há dois anos chegou finalmente em junho de 2026. Não é o mesmo que o Google-Extended, e a diferença importa.

Durante dois anos, a pergunta mais feita sobre rastreadores de IA foi alguma versão de: «Como apareço na busca normal do Google mas não nos AI Overviews?». Até junho de 2026, a resposta honesta era «não pode». O Google-Extended — o token a que a maioria recorria — só controla se o Google treina o Gemini e o Vertex AI com as suas páginas já rastreadas. Nunca controlou os AI Overviews nem o AI Mode, que recorrem ao índice padrão do Googlebot. Bloquear o Google-Extended não fazia nada para o manter fora dos resumos de IA que de facto comiam os seus cliques.^[8]

Isso mudou a 3 de junho de 2026, quando o Google lançou um relatório de desempenho de IA na Search Console juntamente com um botão de opt-out que permite aos editores retirar conteúdo dos AI Overviews e do AI Mode sem perder o ranking de busca padrão.^[6] A definição entra em vigor a 17 de junho de 2026, quando o Google começa a agir sobre o sinal, e ativá-la não afeta a sua posição nos resultados normais do Google.^[7] Duas ressalvas a reler duas vezes: a app Gemini fica excluída deste opt-out (é um produto separado), e optar por sair significa aceitar que desaparece também a citação/visibilidade que obtinha dos AIO.

O que faz cada alavanca do Google

Google-Extended (token do robots.txt) → recusa do treino do Gemini / Vertex. Não o remove dos AI Overviews.
Botão de opt-out de IA do GSC (em vigor a 17 jun 2026) → retira conteúdo dos AI Overviews e do AI Mode, mantém o ranking normal. Exclui a app Gemini.
Disallow Googlebot → opção nuclear; remove-o do Google por completo, incluindo a busca normal que ainda envia cliques reais. Quase nunca a escolha certa.

A configuração predefinida recomendada para 2026

Três perfis, uma decisão. Escolha o que corresponde ao seu objetivo e copie o robots.txt abaixo.

Não há uma única configuração correta — há uma configuração correta para o seu objetivo. Eis os três perfis que cobrem quase todos os sites pequenos, de «quero estar em cada resposta» a «mantém-me fora da IA por completo».

Perfil	Para quem	Bots de treino	Bots de busca	Porquê
Visibilidade máxima	A maioria dos sites pequenos, blogues, negócios locais	Permitir tudo	Permitir tudo	Quer estar em cada resposta. O custo de largura de banda é trivial em pequena escala, e bloquear o treino tem efeitos secundários mensuráveis nas citações.
Bloquear o treino, manter as citações	Editores, sites de investigação original, quem recuse a extração unilateral	Bloquear GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended, Bytespider (WAF)	Permitir OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User	A predefinição de consenso de 2026 para negócios de conteúdo: travar a extração unilateral, manter aberto o canal de citações.
Fora das respostas de IA por completo	Conteúdo pago, de subscrição ou juridicamente sensível	Bloquear todos os bots de treino	Bloquear todos os bots de busca/resposta + ativar o novo opt-out do GSC (em vigor a 17 jun 2026)	Aceita a perda de citações para manter o conteúdo fora das superfícies de IA. O ranking padrão do Google não é afetado pelo botão do GSC.

Para a maioria dos sites pequenos, a recomendação honesta é o Perfil 1 — permitir tudo. O seu objetivo é a visibilidade, o custo de largura de banda do rastreio de IA é trivial em pequena escala, e bloquear os rastreadores de treino acarreta efeitos secundários nas citações que não pode prever totalmente. O perfil «bloquear o treino, manter as citações» (Perfil 2) é a predefinição certa para negócios de conteúdo, editores e quem publique investigação original e recuse genuinamente a extração unilateral. O Perfil 3 é só para conteúdo pago, de subscrição ou juridicamente sensível.

A higiene de rastreadores abre a porta — o conteúdo torna-a digna de atravessar

Pôr em ordem a sua higiene de rastreadores apenas abre a porta: decide se o GPTBot, o OAI-SearchBot, o ClaudeBot e o PerplexityBot podem sequer lê-lo. O que encontram uma vez dentro é a outra metade do trabalho. Os motores de resposta de IA valorizam conteúdo fresco e atualizado com regularidade, e um site que publica uma vez por trimestre dá a um bot de busca que regressa quase nada de novo para citar. Esse ritmo de publicação contínuo é exatamente o que a News Factory automatiza: a partir do plano Pro, os seus agentes de IA monitorizam feeds RSS do setor, redigem artigos completos e publicam automaticamente em WordPress, Drupal ou Joomla num calendário que você define — aprova cada publicação ou deixa os agentes trabalhar sozinhos — em até cinco idiomas. Não toca no seu robots.txt (essa parte fica nas suas mãos, exatamente como este guia descreve), mas mantém alimentado o lado do conteúdo da equação das citações, para que os rastreadores que acabou de permitir tenham sempre algo atual para levar.

Como ver que bots o estão realmente a visitar

Antes de bloquear o que quer que seja, olhe para os seus logs. Pode estar a otimizar para um rastreador que nunca o visita — ou a bloquear um que gera todas as suas citações.

Regras escritas às escuras são palpites. Dedique vinte minutos a ver quem o rastreia de facto antes de mudar uma única linha, porque o panorama de bots varia enormemente por nicho. Eis a pilha de monitorização prática, da mais barata em diante:

Logs de acesso do servidor / CDN. Filtre por user-agent para GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot, CCBot e Bytespider. Isto diz-lhe a frequência e que páginas cada bot toca. Nota: o Google-Extended nunca aparecerá — é um token, não um pedido.
Cloudflare Radar AI Insights. Se estiver atrás da Cloudflare, o painel gratuito AI Insights mostra a atividade de rastreadores de IA e os dados crawl-to-referral citados neste artigo.
Google Search Console. O novo relatório de desempenho de IA (junho de 2026) é onde verá as impressões de AI Overviews / AI Mode — e onde vive o botão de opt-out.
Verifique a autenticidade. Os user-agents falsificados são comuns. Cruze os acessos suspeitos com os intervalos de IP publicados — a OpenAI lista-os em openai.com/gptbot.json, openai.com/searchbot.json e openai.com/chatgpt-user.json.

O check-up de higiene de rastreadores em 30 minutos

Extraia os logs de acesso do último mês; liste cada user-agent de IA que o visitou e com que frequência.
Abra o seu robots.txt atual. Ainda menciona só o GPTBot? Atualize-o para a lista de bots de 2026 com o perfil que corresponde ao seu objetivo.
Certifique-se de que não está a bloquear por acidente o OAI-SearchBot, o Claude-SearchBot ou o PerplexityBot — é o erro dos 71% dos editores.
Adicione uma regra de WAF para o Bytespider se os seus logs o mostrarem a ignorar o seu robots.txt.
Decida sobre os AI Overviews separadamente: deixe-os estar, ou use o opt-out do GSC a partir de 17 de junho de 2026. Não espere que o Google-Extended faça esse trabalho.
Opcionalmente, publique um llms.txt se a sua stack o gerar — depois esqueça-o e vá escrever conteúdo.

→ Faça-o agora: Abra https://o-seu-dominio.com/robots.txt num navegador. Se não mencionar o OAI-SearchBot nem o Claude-SearchBot, está desatualizado — e pode estar invisível para os próprios produtos de busca de IA que os seus clientes usam. Escolha um perfil da tabela acima, cole a configuração correspondente, e terá feito mais higiene de rastreadores do que a esmagadora maioria dos sites pequenos em 2026.

Leituras relacionadas

AEO vs SEO em 2026: porque os motores de resposta são a nova busca — assim que os bots de busca o conseguem ler, é assim que ganha de facto a citação.
AI Overviews e SGE: como os sites pequenos ainda podem ganhar cliques — os dados do dano de tráfego por trás da decisão de opt-out.
Schema markup para pequenas empresas — os dados estruturados que ajudam os rastreadores que permitiu a compreender as suas páginas.
SEO técnico para não programadores — robots.txt, sitemaps e o resto da canalização, em linguagem clara.

Referências e fontes

[1]SE Ranking. «LLMs.txt: porque as marcas confiam nele e porque não funciona» (nov 2025) — estudo de 300.000 domínios. ~10,13% de adoção, quase idêntica em todos os níveis de tráfego; sem diferença estatisticamente significativa nas citações de IA entre sites com e sem llms.txt. seranking.com →

[2]Search Engine Land. «O llms.txt importa? Seguimos 10 sites para descobrir» (20 jan 2026) — análise antes/depois de 90 dias em 10 sites. Apenas dois viram aumentos de tráfego de IA, não atribuíveis ao ficheiro. searchengineland.com →

[3]Cloudflare. «The crawl-to-click gap» (29 ago 2025) — o treino é agora ~80% do rastreio de IA (era 72%); GPTBot 4,7%→11,7%, ClaudeBot 6%→~10%, Bytespider 14,1%→2,4%; Anthropic 38.000 rastreios por referral em julho, Perplexity 194:1, Googlebot ~5:1. blog.cloudflare.com →

[4]Soar Agency. «Como os bots de IA rastreiam o seu site: um guia de robots.txt para GPTBot, ClaudeBot e PerplexityBot» — proprietário, propósito, user-agent e conformidade com robots.txt de cada bot do panorama 2026. soar.sh →

[5]Digital Applied. «AI Crawler Access Control: The 2026 Decision Matrix» (4 jun 2026) — a divisão bot de treino vs indexador de busca; economia crawl-to-referral da Cloudflare (Anthropic pico ~70.900:1, Googlebot ~5:1); ~71% dos grandes editores de notícias bloqueiam pelo menos um bot de recuperação/busca, muitas vezes por engano. digitalapplied.com →

[6]Digital Applied. «GSC AI Reports: deve bloquear as respostas de IA do Google?» (3 jun 2026) — o relatório de desempenho de IA na Search Console e o botão de opt-out que retira conteúdo dos AI Overviews e do AI Mode sem perder o ranking padrão. digitalapplied.com →

[7]TechTimes. «O opt-out dos AI Overviews do Google chega à Search Console: Gemini excluído» (8 jun 2026) — o sinal de opt-out entra em vigor a 17 jun 2026; ativá-lo não afeta o ranking padrão; a app Gemini fica excluída do opt-out. techtimes.com →

[8]ALM Corp. «Google AI Overviews Opt-Out: guia de controlos para editores 2026» (28 jan 2026) — Digital Content Next: quedas de tráfego de 1–25% (média ~25%); o CTR cai 34,5–79% quando surgem AI Overviews; o Google-Extended não controla a inclusão nos AI Overviews. almcorp.com →

[9]SEOmator. «GEO Data Report 2026: que rastreadores de IA e bots LLM levam mais» — análise da Cloudflare Radar: ClaudeBot ~13.528–23.951 páginas por referral; GPTBot 1.276:1; detalhe crawl-to-refer por motor. seomator.com →

[10]ppc.land. «Bloquear rastreadores de IA não trava as citações — novos dados explicam porquê» (6 abr 2026) — os editores esperam uma queda adicional de tráfego de 43% em três anos; o bloqueio é poroso porque os motores citam por caminhos alternativos. ppc.land →

[11]AuthorityTech. «Os AI Overviews do Google cortam o tráfego em 15% — o que ganha citações (2026)» — os sites que bloqueiam o Google-Extended têm muito menos probabilidade de serem citados pelos motores generativos, mesmo nos AI Overviews. authoritytech.io →

[12]OpenAI. «Overview of OpenAI Crawlers» — documentação oficial do GPTBot (treino), OAI-SearchBot (ChatGPT Search) e ChatGPT-User (busca iniciada pelo utilizador), com user-agents e intervalos de IP publicados. platform.openai.com →

[13]Anthropic. «A Anthropic rastreia dados da web e como podem os donos de sites bloquear o rastreador?» — documenta o ClaudeBot (treino), o Claude-SearchBot (índice de busca) e o Claude-User (iniciado pelo utilizador); a Anthropic compromete-se a respeitar o robots.txt. privacy.claude.com →

[14]Elementera AI. «O que é o llms.txt e como implementá-lo para bots de IA (guia 2026)» — a Limy.AI monitorizou mais de 500 milhões de eventos de bots de IA em 90 dias e só 408 pedidos visavam o llms.txt; estima 5–15% de adoção no início de 2026. elementera.com →

Artigo também disponível em:

🇬🇧 English 🇨🇴 Español 🇫🇷 Français 🇩🇪 Deutsch 🇮🇹 Italiano