¿Qué es llms.txt y es lo mismo que robots.txt?

llms.txt es un archivo Markdown propuesto por la comunidad, colocado en la raíz del dominio (/llms.txt), que lista tus páginas más importantes en formato limpio y parseable para que un modelo de lenguaje encuentre y entienda tu mejor contenido. No es lo mismo que robots.txt. robots.txt es un estándar de control de acceso de ~30 años que dice a los rastreadores qué pueden y no pueden descargar, y los grandes rastreadores de IA lo respetan. llms.txt es pura curación informativa — ninguna gran plataforma de IA ha confirmado oficialmente que lo lee, y un estudio de SE Ranking sobre 300.000 dominios no halló mejora significativa en citaciones. robots.txt es tu palanca real; llms.txt es de bajo coste y baja recompensa.

¿Debería un sitio pequeño bloquear GPTBot y ClaudeBot en 2026?

Depende de tu objetivo. GPTBot y ClaudeBot son rastreadores de entrenamiento — bloquearlos mantiene tu contenido fuera del entrenamiento de futuros modelos pero no impide que aparezcas en respuestas de búsqueda de IA, que dependen de bots distintos (OAI-SearchBot, Claude-SearchBot). Para la mayoría de sitios pequeños cuyo objetivo es la visibilidad, permitir todo es lo más simple, porque bloquear el entrenamiento tiene efectos secundarios medibles en las citaciones. Para editores y sitios de investigación original que rechazan la extracción unilateral, el consenso de 2026 es bloquear los bots de entrenamiento y permitir los de búsqueda y recuperación.

¿Google-Extended impide que mi contenido aparezca en los AI Overviews?

No. Google-Extended es un token de control que solo rige si Google puede usar páginas ya rastreadas para entrenar Gemini y Vertex AI. No controla si tu contenido aparece en AI Overviews o AI Mode, que usan el índice normal de Googlebot. Para retirar contenido de los AI Overviews y AI Mode, Google lanzó un toggle de opt-out separado en Search Console el 3 de junio de 2026, efectivo el 17 de junio de 2026 — y usarlo no afecta tu ranking estándar. La app Gemini queda excluida de ese opt-out.

llms.txt, GPTBot, ClaudeBot: la guía de higiene de rastreadores de IA para sitios pequeños

Por qué tu robots.txt está de pronto tres años desfasado

En 2023 necesitabas una línea para GPTBot. En 2026 un robots.txt moderno necesita reglas para una docena de bots de IA — y el viejo consejo de «bloquear toda la IA» ahora es contraproducente.

Si gestionas un sitio pequeño, hay bastantes probabilidades de que tu robots.txt no se haya tocado desde que añadiste una sola regla para GPTBot en 2023 — o de que nunca lo hayas tocado. Esa brecha importa más que antes. A mediados de 2025, los datos de red de Cloudflare mostraron que el rastreo de entrenamiento había crecido hasta cerca del 80% de toda la actividad de bots de IA, frente al 72% del año anterior.^[3] Los rastreadores de IA son ya una parte significativa de quién llama a la puerta de tu servidor cada día, y las reglas que les des deciden dos cosas muy distintas: si tu contenido entrena gratis el modelo de otro, y si apareces cuando un comprador le pregunta algo a ChatGPT o Perplexity.

Lo que hace 2026 genuinamente diferente es que los grandes proveedores de IA dividieron su único rastreador en varios. OpenAI ya no opera un solo bot — opera GPTBot para entrenamiento, OAI-SearchBot para ChatGPT Search y ChatGPT-User para descargas bajo demanda. Anthropic opera tres. La consecuencia práctica: el movimiento instintivo de Disallow: / para cada user-agent de IA ahora hace dos trabajos a la vez. Te saca de los corpus de entrenamiento (a menudo lo que querías) y te borra de las respuestas de búsqueda de IA (casi nunca lo que querías). El análisis de Digital Applied del marco de Anthropic reporta que cerca del 71% de los grandes editores de noticias bloquean al menos un bot de recuperación o búsqueda, frecuentemente con la intención de bloquear solo el entrenamiento.^[5] Ese es exactamente el error caro que esta guía evita.

La frase que explica todo el tema

Hay dos archivos haciendo dos trabajos distintos, y la gente los confunde constantemente. robots.txt controla el acceso — qué puede descargar un rastreador — y los grandes bots de IA lo respetan. llms.txt es una sugerencia de curación — una lista de lectura recomendada para modelos de lenguaje — y ninguna gran plataforma de IA ha confirmado que lo lea siquiera. Uno es una cerradura. El otro es una nota adhesiva en la puerta. Trátalos en consecuencia.

Qué es llms.txt — y por qué probablemente no hará mucho

Una idea razonable con casi ninguna prueba de adopción detrás. Publícalo si es barato; no construyas una estrategia sobre él.

llms.txt es un archivo Markdown propuesto por la comunidad que colocas en la raíz de tu dominio (/llms.txt) y que lista tus páginas más importantes en formato limpio y parseable, para que un modelo de lenguaje encuentre y entienda tu mejor contenido sin atravesar navegación, anuncios y scripts. Lo propuso Jeremy Howard, de Answer.AI, en septiembre de 2024. La analogía habitual es «un sitemap para LLMs», y la intención es genuinamente sensata: dar a los modelos un mapa curado y de bajo ruido de lo que importa en tu sitio, opcionalmente con un /llms-full.txt más completo que inserte el contenido real.

El problema es la brecha entre la idea y la evidencia. Tras dieciocho meses de conversación en el sector, los datos son aleccionadores:

La adopción es de uno de cada diez sitios. El estudio de SE Ranking sobre 300.000 dominios halló un 10,13% de adopción, y, crucialmente, la adopción fue casi idéntica en los niveles de tráfico bajo, medio y alto (~9–10% cada uno) — así que no son los sitios sofisticados los que corren por delante.^[1]
Sin mejora medible en citaciones. El mismo análisis de SE Ranking no halló diferencia estadísticamente significativa en la frecuencia de citaciones de IA entre sitios con y sin llms.txt. Un modelo entrenado con datos de citaciones de IA incluso mejoró cuando se eliminó la variable llms.txt.^[1]
Casi nada lo lee. Limy.AI monitorizó más de 500 millones de eventos de bots de IA en 90 días y halló solo 408 solicitudes dirigidas a llms.txt directamente.^[14] Search Engine Land siguió 10 sitios 90 días antes y después de añadir el archivo; solo dos vieron aumentos de tráfico de IA, y no por el archivo.^[2]
Sin soporte oficial. A mediados de 2026, ni OpenAI, ni Anthropic, ni Google, ni Perplexity han confirmado oficialmente que sus sistemas lean o actúen sobre llms.txt. Sigue siendo una especificación comunitaria, no un estándar adoptado.

llms.txt: la realidad de adopción vs impacto

Uno de cada diez sitios lo tiene; el beneficio medible hasta ahora es casi cero[1][14]

Sitios con archivo llms.txt (SE Ranking, 300k dominios)

10.1%

Adopción en sitios de alto tráfico (≈ igual que bajo)

10%

Mejora medible en citaciones de IA por tenerlo

Plataformas de IA que confirman oficialmente que lo leen

Esto no es un argumento para no publicar nunca un llms.txt — cuesta casi nada y es compatible a futuro si las plataformas formalizan el soporte. Es un argumento contra tratarlo como una palanca de crecimiento. Dedica los diez minutos si quieres; no le dediques una reunión de estrategia.

La opinión honesta para un sitio pequeño

Publica un llms.txt si tu CMS o framework lo genera gratis — es de bajo coste y bajo riesgo, y ser temprano no te cuesta nada si la especificación gana tracción. Pero el archivo que de verdad debes mantener al día es robots.txt. Ese es el que los rastreadores obedecen genuinamente, y el que decide si estás (o no) en las respuestas que leen tus clientes.

robots.txt vs llms.txt: la comparación honesta

Mismo directorio raíz, poderes completamente distintos. Uno es exigible; el otro es una petición cortés que nadie está obligado a leer.

Dimensión	robots.txt	llms.txt
Qué es	Un archivo de control de acceso que dice a los rastreadores qué pueden y no pueden descargar	Un archivo de curación en Markdown que lista tus mejores páginas para que un LLM las encuentre y parsee
Antigüedad y estatus	Robots Exclusion Protocol — un estándar web de ~30 años, ahora un RFC del IETF	Una propuesta comunitaria de sept 2024 (Jeremy Howard / Answer.AI). No es un estándar oficial
Ubicación	/robots.txt en la raíz de tu dominio	/llms.txt en la raíz de tu dominio (opcionalmente un /llms-full.txt más completo)
Cumplimiento	Respetado por todos los grandes rastreadores de IA (salvo algunos como Bytespider)	Solo informativo — ningún rastreador está obligado a leerlo o actuar sobre él
Quién lo consume de verdad	OpenAI, Anthropic, Perplexity, Google y Common Crawl lo leen	Ninguna gran plataforma de IA ha confirmado oficialmente que lee llms.txt (mediados de 2026)
Impacto medido	Controla directamente si un bot puede rastrear una ruta	El estudio de 300k dominios de SE Ranking no halló mejora significativa en citaciones
Qué no puede hacer	No puede frenar a un bot incumplidor y no controla los AI Overviews (índice de Googlebot)	No puede bloquear nada — es una sugerencia, no una puerta
¿Vale la pena en 2026?	Sí — es tu palanca real. Mantenlo al día con la lista de bots de 2026	Bajo coste, bajo riesgo, baja recompensa. Publícalo si es barato; no esperes tráfico de él

La conclusión no es «llms.txt es inútil» — es que los dos archivos no son intercambiables, y el que de verdad cambia resultados hoy es el aburrido y antiguo. Si en 2026 solo tienes tiempo de dejar bien un archivo, que sea robots.txt, con reglas que reflejen el panorama actual de rastreadores de IA y no la versión de 2023.

El zoo de rastreadores de IA de 2026: quién te visita

Cada motor de IA opera su propio rastreador — y la mayoría operan dos o tres, cada uno con un trabajo distinto y una respuesta correcta distinta.

Antes de escribir una regla sensata, necesitas saber para qué sirve cada bot. Cada rastreador de IA hace uno de tres trabajos: recopila páginas para entrenar modelos, indexa páginas para respuestas de búsqueda de IA, o descarga una página en tiempo real porque un usuario le preguntó al asistente por ella ahora mismo. Son relaciones comerciales distintas, y en 2026 los grandes proveedores por fin las exponen como bots distintos que puedes controlar de forma independiente.

Los bots que verás más

GPTBotClaudeBotPerplexityBotGoogle-ExtendedCCBotBytespider

Bot	Propietario	Propósito	¿robots.txt?	Decisión por defecto 2026
`GPTBot`	OpenAI	Entrenamiento — alimenta futuros modelos GPT	Sí	Bloquéalo si no quieres entrenar modelos gratis; permítelo si buscas máximo alcance futuro
`OAI-SearchBot`	OpenAI	Indexa páginas para ChatGPT Search	Sí	PERMITIR — bloquearlo te elimina de las respuestas de ChatGPT Search
`ChatGPT-User`	OpenAI	Descarga bajo demanda cuando un usuario abre tu URL	Sí	PERMITIR — bloquearlo rompe una descarga que el usuario pidió
`ClaudeBot`	Anthropic	Entrenamiento — alimenta el corpus de Claude	Sí	Bloquéalo para no entrenar; es el rastreador más extractivo por ratio crawl-to-referral
`Claude-SearchBot`	Anthropic	Indexa páginas para la búsqueda web de Claude	Sí	PERMITIR — así te cita Claude (nuevo en 2026)
`PerplexityBot`	Perplexity	Indexa páginas para que Perplexity las cite	Sí (con matiz de rastreo sigiloso)	PERMITIR — Perplexity es el motor más amigable para sitios pequeños
`Google-Extended`	Google	Token de control — rige el uso de páginas ya rastreadas para entrenar Gemini/Vertex	Sí (es un token, no un bot — nunca en tus logs)	Opt-out opcional del entrenamiento de Gemini. NO controla los AI Overviews — usa el nuevo opt-out de GSC para eso
`CCBot`	Common Crawl	Corpus público que alimenta a muchos entrenadores de modelos	Sí	Bloquéalo para no entrar en el corpus abierto; inofensivo si lo permites
`Bytespider`	ByteDance	Entrenamiento — alimenta a Doubao	No — incumplimiento documentado	Bloquéalo a nivel de WAF / IP — el robots.txt solo no lo detiene

Dos filas merecen una segunda lectura. Google-Extended no es un rastreador real — es un token de control que nunca aparece en tus logs de servidor como una solicitud HTTP. Solo rige si Google puede usar páginas que ya ha rastreado (con el Googlebot normal) para entrenar Gemini y Vertex AI. Y Bytespider (ByteDance) tiene un historial documentado de ignorar robots.txt de forma inconsistente, por lo que bloquearlo requiere una regla de firewall o a nivel de IP en lugar de un cortés Disallow.

La distinción que hace todo el trabajo

Un rastreador de entrenamiento convierte tu contenido en pesos de modelo por los que nunca se te acredita. Un rastreador de búsqueda convierte tu contenido en una respuesta citada que puede enviarte un visitante de vuelta. Bloquear el primero y permitir el segundo es toda la estrategia de 2026 — y solo es posible porque los proveedores por fin los separaron. GPTBot no es OAI-SearchBot. ClaudeBot no es Claude-SearchBot. Trátalos como un solo grupo y te borras del canal de referidos que más crece del año.

Infografía: la matriz de decisión de rastreadores de IA en 2026 — qué hace cada bot (GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot, Google-Extended, CCBot, Bytespider) y la recomendación de permitir o bloquear para un sitio pequeño

La economía: pérdida de tráfico vs pérdida de citaciones

La decisión de bloquear o permitir es en realidad un intercambio entre dos tipos de pérdida. El ratio crawl-to-referral de Cloudflare es el número que lo enmarca.

El argumento de negocio para bloquear los rastreadores de entrenamiento se reduce a un único ratio: cuántas de tus páginas rastrea un bot por cada visitante que te envía de vuelta. Cloudflare publica este ratio crawl-to-referral en su red, y la dispersión entre proveedores es extraordinaria. El Googlebot tradicional ronda las 5 páginas rastreadas por referido. El ClaudeBot de Anthropic, en su pico de junio de 2025, rastreaba aproximadamente 70.900 páginas por cada visitante que refería de vuelta — una asimetría que replantea el acceso de entrenamiento como una extracción de valor unilateral.^[5]

Ratio crawl-to-referral — páginas rastreadas por 1 visitante enviado de vuelta

Cuanto más bajo, más justo para el editor. Los rastreadores de entrenamiento toman mucho más de lo que dan[3][5][9]

ClaudeBot / Anthropic (pico, jun 2025)

70900:1

ClaudeBot / Anthropic (jul 2025)

38000:1

GPTBot / OpenAI

1276:1

PerplexityBot

194:1

Googlebot (búsqueda clásica)

5:1

DuckDuckGo (casi paridad)

1.5:1

Las barras están en una sola escala lineal, por eso todo lo que está por debajo de ClaudeBot parece diminuto — ese es el punto. El pico de ClaudeBot (~70.900:1) y GPTBot (1.276:1) empequeñecen a Googlebot (~5:1) y DuckDuckGo (~1,5:1). Para julio de 2025 Anthropic había mejorado a ~38.000:1 y Perplexity estaba en 194:1, pero la brecha sigue siendo enorme.

Pero hay una trampa que impide que «solo bloquea los bots de entrenamiento» sea gratis, y es el matiz más importante de todo este artículo. El bloqueo tiene efectos secundarios en las citaciones. El análisis de AuthorityTech de 2026 halló que los sitios que bloquean Google-Extended tienen mucha menos probabilidad de ser citados por motores generativos — incluso en AI Overviews, donde Google técnicamente conserva el acceso al contenido a través del índice normal.^[11] Y los datos de ppc.land muestran que el bloqueo es poroso en la otra dirección también: bloquear rastreadores de IA no detiene de forma fiable las citaciones, porque los motores tiran de rutas alternativas, citas de terceros y copias en caché.^[10] Puedes perder el beneficio de visibilidad sin ganar del todo la privacidad por la que bloqueaste.

Al otro lado de la balanza está el daño de tráfico que empuja a la gente a bloquear en primer lugar. Los AI Overviews de Google han recortado medibles el tráfico de referidos: Digital Content Next reporta caídas de tráfico del 1–25% para miembros, con media en torno al 25%, y los CTR caen entre 34,5% y 79% cuando aparece un AI Overview, según el tipo de consulta.^[8] Los editores encuestados por ppc.land esperan una caída adicional de tráfico del 43% en los próximos tres años.^[10] Cuando la IA te quita tráfico y a la vez te rastrea 70.000 a 1, las ganas de levantar el puente levadizo son comprensibles.

Lo que los AI Overviews hacen al tráfico de sitios pequeños

El daño que empuja a los dueños a bloquear — y por qué la decisión se siente urgente[8][10]

Caída de CTR orgánico cuando aparece un AI Overview (máx.)

79%

Caída de tráfico extra esperada en 3 años (editores)

43%

Caída de CTR cuando aparece un AI Overview (mín.)

34.5%

Caída media de tráfico de miembros (Digital Content Next)

25%

Sitios del top-1000 que bloquean GPTBot

25%

Cerca de una cuarta parte de los 1.000 sitios principales bloquean ahora GPTBot. Pero fíjate en lo que bloquear solo GPTBot no hace: no te retira de los AI Overviews (índice distinto), y no impide que ChatGPT Search te cite (eso es OAI-SearchBot). El daño de tráfico y el rastreador que bloqueas a menudo ni siquiera están conectados.

La cuota de rastreadores de IA se consolida en torno a dos actores

GPTBot y ClaudeBot más que duplicaron su cuota de rastreo de IA; Bytespider se desplomó[3]

GPTBot — cuota actual (era 4,7%)

11.7%

ClaudeBot — cuota actual (era 6%)

10%

Claude-SearchBot — nuevo (may 2026)

Bytespider — cuota actual (era 14,1%)

2.4%

Entre 2024 y mediados de 2025, la cuota de rastreo de IA de GPTBot subió del 4,7% al 11,7% y la de ClaudeBot del 6% a ~10%, mientras Bytespider de ByteDance cayó del 14,1% al 2,4%. En mayo de 2026, el Claude-SearchBot dedicado de Anthropic apareció con un 2,00% de cuota — la primera vez que el rastreador de búsqueda de un gran proveedor aparece como un actor distinto y de tamaño notable.

Infografía: la economía de bloquear rastreadores de IA — ratios crawl-to-referral (ClaudeBot ~70.900:1, GPTBot ~1.276:1, PerplexityBot ~194:1, Googlebot ~5:1) y la mejora de ~0% en citaciones de llms.txt pese al ~10% de adopción

El nuevo opt-out de Google — y por qué Google-Extended no lo es

El control que los editores llevaban dos años pidiendo por fin llegó en junio de 2026. No es lo mismo que Google-Extended, y la diferencia importa.

Durante dos años, la pregunta más repetida sobre rastreadores de IA fue alguna versión de: «¿Cómo aparezco en la búsqueda normal de Google pero no en los AI Overviews?». Hasta junio de 2026, la respuesta honesta era «no puedes». Google-Extended — el token al que la mayoría recurría — solo controla si Google entrena Gemini y Vertex AI con tus páginas ya rastreadas. Nunca ha controlado los AI Overviews ni AI Mode, que tiran del índice estándar de Googlebot. Bloquear Google-Extended no hacía nada para mantenerte fuera de los resúmenes de IA que de verdad se comían tus clics.^[8]

Eso cambió el 3 de junio de 2026, cuando Google lanzó un informe de rendimiento de IA en Search Console junto a un toggle de opt-out que permite a los editores retirar contenido de los AI Overviews y AI Mode sin perder el ranking de búsqueda estándar.^[6] El ajuste surte efecto el 17 de junio de 2026, cuando Google empieza a actuar sobre la señal, y activarlo no afecta tu posición en los resultados normales de Google.^[7] Dos matices que conviene leer dos veces: la app Gemini queda excluida de este opt-out (es un producto separado), y optar por salir significa aceptar que desaparece también la citación/visibilidad que obtenías de los AIO.

Qué hace cada palanca de Google

Google-Extended (token de robots.txt) → opt-out del entrenamiento de Gemini / Vertex. No te retira de los AI Overviews.
Toggle de opt-out de IA en GSC (efectivo 17 jun 2026) → retira contenido de AI Overviews y AI Mode, conserva el ranking normal. Excluye la app Gemini.
Disallow Googlebot → opción nuclear; te retira de Google por completo, incluida la búsqueda normal que sí envía clics reales. Casi nunca es lo correcto.

La configuración por defecto recomendada para 2026

Tres perfiles, una decisión. Elige el que coincida con tu objetivo y copia el robots.txt de abajo.

No hay una única configuración correcta — hay una configuración correcta para tu objetivo. Estos son los tres perfiles que cubren casi cualquier sitio pequeño, desde «quiero estar en cada respuesta» hasta «mantenme fuera de la IA por completo».

Perfil	Para quién	Bots de entrenamiento	Bots de búsqueda	Por qué
Máxima visibilidad	La mayoría de sitios pequeños, blogs, negocios locales	Permitir todo	Permitir todo	Quieres estar en cada respuesta. El coste de ancho de banda es trivial a pequeña escala y bloquear el entrenamiento tiene efectos secundarios en las citaciones.
Bloquear entrenamiento, mantener citaciones	Editores, sitios de investigación original, quien rechace la extracción unilateral	Bloquear GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended, Bytespider (WAF)	Permitir OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User	El default de consenso de 2026 para negocios de contenido: frena la extracción unilateral, mantén abierto el canal de citaciones.
Fuera de las respuestas de IA por completo	Contenido de pago, de membresía o legalmente sensible	Bloquear todos los bots de entrenamiento	Bloquear todos los bots de búsqueda/respuesta + activar el nuevo opt-out de GSC (efectivo 17 jun 2026)	Aceptas la pérdida de citaciones para mantener el contenido fuera de las superficies de IA. El ranking estándar de Google no se ve afectado por el toggle de GSC.

Para la mayoría de sitios pequeños, la recomendación honesta es el Perfil 1 — permitir todo. Tu objetivo es la visibilidad, el coste de ancho de banda del rastreo de IA es trivial a pequeña escala, y bloquear los rastreadores de entrenamiento conlleva efectos secundarios en las citaciones que no puedes predecir del todo. El perfil «bloquear entrenamiento, mantener citaciones» (Perfil 2) es el default correcto para negocios de contenido, editores y cualquiera que publique investigación original que de verdad rechace la extracción unilateral. El Perfil 3 es solo para contenido de pago, de membresía o legalmente sensible.

La higiene de rastreadores abre la puerta — el contenido la mantiene digna de cruzar

Tener bien tu higiene de rastreadores solo abre la puerta: decide si GPTBot, OAI-SearchBot, ClaudeBot y PerplexityBot pueden leerte siquiera. Lo que encuentran una vez dentro es la otra mitad del trabajo. Los motores de respuesta de IA valoran el contenido fresco y actualizado con regularidad, y un sitio que publica una vez al trimestre da a un bot de búsqueda que vuelve casi nada nuevo que citar. Ese ritmo de publicación continuo es exactamente lo que automatiza News Factory: desde el plan Pro, sus agentes de IA monitorizan feeds RSS del sector, redactan artículos completos y autopublican en WordPress, Drupal o Joomla en un calendario que tú defines — apruebas cada publicación o dejas que los agentes trabajen solos — en hasta cinco idiomas. No toca tu robots.txt (esa parte queda en tus manos, exactamente como describe esta guía), pero mantiene alimentado el lado del contenido de la ecuación de citaciones, para que los rastreadores que acabas de permitir siempre tengan algo actual que llevarse.

Cómo ver qué bots te están visitando de verdad

Antes de bloquear nada, mira tus logs. Puede que estés optimizando para un rastreador que nunca te visita — o bloqueando uno que impulsa todas tus citaciones.

Las reglas escritas a oscuras son conjeturas. Dedica veinte minutos a mirar quién te rastrea de verdad antes de cambiar una sola línea, porque el panorama de bots varía enormemente por nicho. Esta es la pila de monitorización práctica, de lo más barato a lo demás:

Logs de acceso del servidor / CDN. Filtra por user-agent para GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot, CCBot y Bytespider. Esto te dice frecuencia y qué páginas toca cada bot. Nota: Google-Extended nunca aparecerá — es un token, no una solicitud.
Cloudflare Radar AI Insights. Si estás tras Cloudflare, el panel gratuito AI Insights muestra la actividad de rastreadores de IA y los datos crawl-to-referral citados en este artículo.
Google Search Console. El nuevo informe de rendimiento de IA (junio 2026) es donde verás las impresiones de AI Overviews / AI Mode — y donde vive el toggle de opt-out.
Verifica la autenticidad. Los user-agents falsificados son comunes. Coteja los accesos sospechosos contra los rangos de IP publicados — OpenAI los lista en openai.com/gptbot.json, openai.com/searchbot.json y openai.com/chatgpt-user.json.

El chequeo de higiene de rastreadores en 30 minutos

Saca los logs de acceso del último mes; lista cada user-agent de IA que te visitó y con qué frecuencia.
Abre tu robots.txt actual. ¿Sigue mencionando solo GPTBot? Actualízalo a la lista de bots de 2026 con el perfil que coincida con tu objetivo.
Asegúrate de no estar bloqueando por accidente OAI-SearchBot, Claude-SearchBot o PerplexityBot — ese es el error del 71% de los editores.
Añade una regla de WAF para Bytespider si tus logs lo muestran ignorando tu robots.txt.
Decide sobre los AI Overviews por separado: déjalos estar, o usa el opt-out de GSC desde el 17 jun 2026. No esperes que Google-Extended haga ese trabajo.
Opcionalmente, publica un llms.txt si tu stack lo genera — luego olvídalo y ponte a escribir contenido.

→ Hazlo ahora: Abre https://tu-dominio.com/robots.txt en un navegador. Si no menciona OAI-SearchBot ni Claude-SearchBot, está desfasado — y puede que seas invisible para los mismos productos de búsqueda de IA que usan tus clientes. Elige un perfil de la tabla de arriba, pega la configuración correspondiente, y habrás hecho más higiene de rastreadores que la inmensa mayoría de sitios pequeños en 2026.

Lecturas relacionadas

AEO vs SEO en 2026: por qué los motores de respuesta son la nueva búsqueda — una vez que los bots de búsqueda pueden leerte, así ganas de verdad la citación.
Resúmenes de IA y SGE: cómo los sitios pequeños pueden seguir ganando clics — los datos del daño de tráfico detrás de la decisión de opt-out.
Schema markup para pequeñas empresas — los datos estructurados que ayudan a los rastreadores que permitiste a entender tus páginas.
SEO técnico para no desarrolladores — robots.txt, sitemaps y el resto de la fontanería, en lenguaje claro.

Referencias y fuentes

[1]SE Ranking. «LLMs.txt: por qué las marcas confían en él y por qué no funciona» (nov 2025) — estudio de 300.000 dominios. ~10,13% de adopción, casi idéntica en todos los niveles de tráfico; sin diferencia estadísticamente significativa en citaciones de IA entre sitios con y sin llms.txt. seranking.com →

[2]Search Engine Land. «¿Importa llms.txt? Seguimos 10 sitios para averiguarlo» (20 ene 2026) — análisis de 90 días antes/después en 10 sitios. Solo dos vieron aumentos de tráfico de IA, no atribuibles al archivo. searchengineland.com →

[3]Cloudflare. «The crawl-to-click gap» (29 ago 2025) — el entrenamiento es ya ~80% del rastreo de IA (era 72%); GPTBot 4,7%→11,7%, ClaudeBot 6%→~10%, Bytespider 14,1%→2,4%; Anthropic 38.000 rastreos por referral en julio, Perplexity 194:1, Googlebot ~5:1. blog.cloudflare.com →

[4]Soar Agency. «Cómo rastrean tu sitio los bots de IA: una guía de robots.txt para GPTBot, ClaudeBot y PerplexityBot» — propietario, propósito, user-agent y cumplimiento de robots.txt de cada bot del panorama 2026. soar.sh →

[5]Digital Applied. «AI Crawler Access Control: The 2026 Decision Matrix» (4 jun 2026) — la división bot de entrenamiento vs indexador de búsqueda; economía crawl-to-referral de Cloudflare (Anthropic pico ~70.900:1, Googlebot ~5:1); ~71% de los grandes editores de noticias bloquean al menos un bot de recuperación/búsqueda, a menudo por error. digitalapplied.com →

[6]Digital Applied. «GSC AI Reports: ¿deberías bloquear las respuestas de IA de Google?» (3 jun 2026) — el informe de rendimiento de IA en Search Console y el toggle de opt-out que retira contenido de los AI Overviews y AI Mode sin perder ranking estándar. digitalapplied.com →

[7]TechTimes. «El opt-out de Google AI Overviews llega a Search Console: Gemini excluido» (8 jun 2026) — la señal de opt-out surte efecto el 17 jun 2026; activarla no afecta el ranking estándar; la app Gemini queda excluida del opt-out. techtimes.com →

[8]ALM Corp. «Google AI Overviews Opt-Out: guía de controles para editores 2026» (28 ene 2026) — Digital Content Next: caídas de tráfico del 1–25% (media ~25%); CTR cae 34,5–79% cuando aparecen AI Overviews; Google-Extended no controla la inclusión en AI Overviews. almcorp.com →

[9]SEOmator. «GEO Data Report 2026: qué rastreadores de IA y bots LLM se llevan más» — análisis de Cloudflare Radar: ClaudeBot ~13.528–23.951 páginas por referral; GPTBot 1.276:1; desglose crawl-to-refer por motor. seomator.com →

[10]ppc.land. «Bloquear rastreadores de IA no detiene las citaciones — nuevos datos explican por qué» (6 abr 2026) — los editores esperan una caída adicional de tráfico del 43% en tres años; el bloqueo es poroso porque los motores citan por rutas alternativas. ppc.land →

[11]AuthorityTech. «Google AI Overviews recorta el tráfico un 15% — qué gana citaciones (2026)» — los sitios que bloquean Google-Extended tienen mucha menos probabilidad de ser citados por motores generativos, incluso en AI Overviews. authoritytech.io →

[12]OpenAI. «Overview of OpenAI Crawlers» — documentación oficial de GPTBot (entrenamiento), OAI-SearchBot (ChatGPT Search) y ChatGPT-User (descarga iniciada por el usuario), con user-agents y rangos de IP publicados. platform.openai.com →

[13]Anthropic. «¿Anthropic rastrea datos de la web y cómo pueden bloquearlo los propietarios?» — documenta ClaudeBot (entrenamiento), Claude-SearchBot (índice de búsqueda) y Claude-User (iniciado por el usuario); Anthropic se compromete a respetar robots.txt. privacy.claude.com →

[14]Elementera AI. «Qué es llms.txt y cómo implementarlo para bots de IA (guía 2026)» — Limy.AI monitorizó más de 500M de eventos de bots de IA en 90 días y solo 408 solicitudes apuntaron a llms.txt; estima 5–15% de adopción a principios de 2026. elementera.com →

Artículo también disponible en:

🇬🇧 English 🇫🇷 Français 🇩🇪 Deutsch 🇧🇷 Português 🇮🇹 Italiano