llms.txtKI-CrawlerGPTBotClaudeBotrobots.txtTechnisches SEO

llms.txt, GPTBot, ClaudeBot: der Leitfaden zur KI-Crawler-Hygiene für kleine Seiten

KI-Crawler verursachen heute ~80 % der Bot-Aktivität im Web, und die meisten robots.txt-Dateien kleiner Seiten sind drei Jahre veraltet. Hier ist der klare Leitfaden für 2026: was llms.txt wirklich ist (und warum eine 300k-Domain-Studie ~0 % Zitat-Zuwachs fand), wie sie sich von robots.txt unterscheidet, was GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot und Google-Extended mit Ihrem Inhalt tun, die Crawl-to-Referral-Ökonomie, das neue KI-Opt-out der Search Console und eine kopierfertige Standardkonfiguration.

Von News Factory · 9. Juni 2026 · 15 Min. Lesezeit
Teilen
0:00

Warum Ihre robots.txt plötzlich drei Jahre veraltet ist

2023 brauchten Sie eine Zeile für GPTBot. 2026 braucht eine moderne robots.txt Regeln für ein Dutzend KI-Bots — und der alte Rat „alle KI blockieren“ ist jetzt schädlich.

Wenn Sie eine kleine Seite betreiben, ist die Wahrscheinlichkeit hoch, dass Ihre robots.txt seit dem Hinzufügen einer einzigen GPTBot-Regel im Jahr 2023 nicht mehr angefasst wurde — oder dass Sie sie nie angefasst haben. Diese Lücke zählt heute mehr als früher. Bis Mitte 2025 zeigten Cloudflares Netzwerkdaten, dass das trainingsbezogene Crawling auf rund 80 % der gesamten KI-Bot-Aktivität gewachsen war, gegenüber 72 % ein Jahr zuvor.[3] KI-Crawler sind heute ein bedeutender Teil derer, die täglich an die Tür Ihres Servers klopfen, und die Regeln, die Sie ihnen geben, entscheiden über zwei sehr verschiedene Dinge: ob Ihr Inhalt das Modell eines anderen kostenlos trainiert, und ob Sie erscheinen, wenn ein Käufer ChatGPT oder Perplexity etwas fragt.

Was 2026 wirklich anders macht: Die großen KI-Anbieter haben ihren einzigen Crawler in mehrere aufgeteilt. OpenAI betreibt nicht mehr einen Bot — es betreibt GPTBot fürs Training, OAI-SearchBot für ChatGPT Search und ChatGPT-User für Abrufe auf Anfrage. Anthropic betreibt drei. Die praktische Folge: Der instinktive Griff zu Disallow: / für jeden KI-User-Agent erledigt nun zwei Aufgaben auf einmal. Er meldet Sie von Trainings-Korpora ab (oft gewollt) und löscht Sie aus KI-Suchantworten (fast nie gewollt). Die Analyse von Digital Applied zu Anthropics Rahmenwerk berichtet, dass rund 71 % der großen Nachrichtenverlage mindestens einen Retrieval- oder Such-Bot blockieren, häufig in der Absicht, nur das Training zu blockieren.[5] Genau diesen teuren Fehler soll dieser Leitfaden verhindern.

Der eine Satz, der das ganze Thema erklärt

Es gibt zwei separate Dateien für zwei separate Aufgaben, und die Leute verwechseln sie ständig. robots.txt steuert den Zugriff — was ein Crawler abrufen darf — und die großen KI-Bots beachten sie. llms.txt ist ein Kuratierungshinweis — eine empfohlene Leseliste für Sprachmodelle — und keine große KI-Plattform hat bestätigt, die Datei überhaupt zu lesen. Das eine ist ein Schloss. Das andere ein Klebezettel an der Tür. Behandeln Sie sie entsprechend.

Was llms.txt ist — und warum sie wahrscheinlich wenig bewirkt

Eine vernünftige Idee mit kaum Adoptionsnachweisen dahinter. Veröffentlichen Sie eine, wenn es günstig ist; bauen Sie keine Strategie darauf.

llms.txt ist eine von der Community vorgeschlagene Markdown-Datei, die Sie im Stammverzeichnis Ihrer Domain (/llms.txt) ablegen und die Ihre wichtigsten Seiten in sauberer, parsbarer Form auflistet, damit ein großes Sprachmodell Ihren besten Inhalt findet und versteht, ohne sich durch Navigation, Werbung und Skripte zu wühlen. Vorgeschlagen wurde sie von Jeremy Howard von Answer.AI im September 2024. Die übliche Analogie lautet „eine Sitemap für LLMs“, und die Absicht ist durchaus sinnvoll: den Modellen eine kuratierte, rauscharme Karte dessen geben, was auf Ihrer Seite zählt, optional mit einer ausführlicheren /llms-full.txt, die den eigentlichen Inhalt einbettet.

Das Problem ist die Kluft zwischen Idee und Beleg. Nach achtzehn Monaten Branchendiskussion sind die Daten ernüchternd:

  • Die Adoption liegt bei etwa einer von zehn Seiten. Die SE-Ranking-Studie über 300.000 Domains fand eine Adoptionsrate von 10,13 %, und entscheidend: Die Adoption war über niedrige, mittlere und hohe Traffic-Stufen nahezu identisch (~9–10 % je) — es sind also nicht die ausgefeilten Seiten, die vorausstürmen.[1]
  • Kein messbarer Zitat-Zuwachs. Dieselbe SE-Ranking-Analyse fand keinen statistisch signifikanten Unterschied in der Häufigkeit von KI-Zitaten zwischen Seiten mit und ohne llms.txt. Ein auf KI-Zitatdaten trainiertes Modell verbesserte sich sogar, als die llms.txt-Variable entfernt wurde.[1]
  • Fast nichts liest sie. Limy.AI überwachte über 500 Millionen KI-Bot-Ereignisse in 90 Tagen und fand nur 408 Anfragen, die direkt auf llms.txt zielten.[14] Search Engine Land verfolgte 10 Seiten 90 Tage vor und nach Hinzufügen der Datei; nur zwei verzeichneten KI-Traffic-Zuwächse, und nicht wegen der Datei.[2]
  • Keine offizielle Unterstützung. Stand Mitte 2026 hat weder OpenAI noch Anthropic, Google oder Perplexity offiziell bestätigt, dass seine Systeme llms.txt lesen oder befolgen. Sie bleibt eine Community-Spezifikation, kein etablierter Standard.

llms.txt: die Realität von Adoption vs. Wirkung

Eine von zehn Seiten hat sie; der messbare Nutzen bislang ist nahezu null[1][14]

Seiten mit einer llms.txt-Datei (SE Ranking, 300k Domains)
10.1%
Adoption bei Seiten mit hohem Traffic (≈ wie bei niedrigem)
10%
Messbarer Zuwachs an KI-Zitaten dadurch
0%
KI-Plattformen, die das Lesen offiziell bestätigen
0%

Dies ist kein Argument dagegen, jemals eine llms.txt zu veröffentlichen — sie kostet fast nichts und ist zukunftskompatibel, falls Plattformen die Unterstützung später formalisieren. Es ist ein Argument dagegen, sie als Wachstumshebel zu behandeln. Investieren Sie die zehn Minuten, wenn Sie möchten; verschwenden Sie kein Strategiemeeting darauf.

Die ehrliche Einschätzung für eine kleine Seite

Veröffentlichen Sie eine llms.txt, wenn Ihr CMS oder Framework sie kostenlos erzeugt — sie ist kostengünstig und risikoarm, und früh dran zu sein kostet Sie nichts, falls sich die Spezifikation durchsetzt. Aber die Datei, die Sie wirklich aktuell halten sollten, ist robots.txt. Das ist die, der die Crawler tatsächlich gehorchen, und die entscheidet, ob Sie in den Antworten Ihrer Kunden stehen (oder nicht).

robots.txt vs. llms.txt: der ehrliche Vergleich

Dasselbe Stammverzeichnis, völlig andere Befugnisse. Das eine ist durchsetzbar; das andere eine höfliche Bitte, die niemand lesen muss.

Dimension robots.txt llms.txt
Was es ist Eine Zugriffskontrolldatei, die Crawlern sagt, was sie abrufen dürfen und was nicht Eine Kuratierungsdatei in Markdown, die Ihre besten Seiten auflistet, damit ein LLM sie findet und parst
Alter & Status Robots Exclusion Protocol — ein ~30 Jahre alter Webstandard, jetzt ein IETF-RFC Ein Community-Vorschlag von Sept. 2024 (Jeremy Howard / Answer.AI). Kein offizieller Standard
Speicherort /robots.txt im Stammverzeichnis Ihrer Domain /llms.txt im Stammverzeichnis Ihrer Domain (optional eine ausführlichere /llms-full.txt)
Durchsetzung Von allen großen KI-Crawlern beachtet (außer einigen wie Bytespider) Nur beratend — kein Crawler ist verpflichtet, sie zu lesen oder zu befolgen
Wer es wirklich nutzt OpenAI, Anthropic, Perplexity, Google und Common Crawl lesen sie alle Keine große KI-Plattform hat offiziell bestätigt, llms.txt zu lesen (Mitte 2026)
Gemessene Wirkung Steuert direkt, ob ein Bot einen Pfad crawlen darf Die 300k-Domain-Studie von SE Ranking fand keinen signifikanten Zitat-Zuwachs
Was es nicht kann Kann einen nicht-konformen Bot nicht stoppen und steuert die AI Overviews nicht (Googlebot-Index) Kann nichts blockieren — es ist ein Vorschlag, kein Tor
Lohnt es sich 2026? Ja — das ist Ihr echter Hebel. Halten Sie sie mit der Botliste von 2026 aktuell Geringe Kosten, geringes Risiko, geringer Nutzen. Veröffentlichen Sie sie, wenn es günstig ist; erwarten Sie keinen Traffic davon

Die Erkenntnis ist nicht „llms.txt ist nutzlos“ — sondern dass die beiden Dateien nicht austauschbar sind und diejenige, die heute wirklich Ergebnisse verändert, die langweilige, jahrzehntealte ist. Wenn Sie 2026 nur Zeit haben, eine Datei richtig zu machen, dann robots.txt, mit Regeln, die die aktuelle KI-Crawler-Landschaft widerspiegeln und nicht die Version von 2023.

Der KI-Crawler-Zoo von 2026: Wer Sie wirklich besucht

Jede KI-Engine betreibt ihren eigenen Crawler — und die meisten betreiben zwei oder drei, jeder mit einer anderen Aufgabe und einer anderen richtigen Antwort.

Bevor Sie eine sinnvolle Regel schreiben können, müssen Sie wissen, wofür jeder Bot da ist. Jeder KI-Crawler erledigt eine von drei Aufgaben: Er sammelt Seiten fürs Modelltraining, indexiert Seiten für KI-Suchantworten, oder ruft eine Seite in Echtzeit ab, weil ein Nutzer den Assistenten gerade jetzt danach gefragt hat. Das sind unterschiedliche kommerzielle Beziehungen, und 2026 legen die großen Anbieter sie endlich als unterschiedliche Bots offen, die Sie unabhängig steuern können.

Die Bots, die Sie am häufigsten sehen

GPTBot ClaudeBot PerplexityBot Google-Extended CCBot Bytespider
Bot Eigentümer Zweck robots.txt? Standardentscheidung 2026
GPTBot OpenAI Training — speist künftige GPT-Modelle Ja Blockieren, wenn Sie keine Modelle gratis trainieren wollen; erlauben für maximale künftige Reichweite
OAI-SearchBot OpenAI Indexiert Seiten für ChatGPT Search Ja ERLAUBEN — Blockieren entfernt Sie aus den Antworten von ChatGPT Search
ChatGPT-User OpenAI Abruf auf Anfrage, wenn ein Nutzer Ihre URL öffnet Ja ERLAUBEN — Blockieren bricht einen Abruf ab, den der Nutzer angefordert hat
ClaudeBot Anthropic Training — speist Claudes Vortrainings-Korpus Ja Blockieren, um sich dem Training zu entziehen; der extraktivste Crawler nach dem Crawl-to-Referral-Verhältnis
Claude-SearchBot Anthropic Indexiert Seiten für Claudes Websuche-Tool Ja ERLAUBEN — so zitiert Claude Sie (neu in 2026)
PerplexityBot Perplexity Indexiert Seiten, damit Perplexity sie zitieren kann Ja (mit Vorbehalt beim Stealth-Crawling) ERLAUBEN — Perplexity ist die zitierfreundlichste Engine für kleine Seiten
Google-Extended Google Steuer-Token — regelt die Nutzung bereits gecrawlter Seiten zum Training von Gemini/Vertex Ja (es ist ein Token, kein echter Bot — nie in Ihren Logs) Optionales Abmelden vom Gemini-Training. Steuert NICHT die AI Overviews — nutzen Sie dafür das neue GSC-Opt-out
CCBot Common Crawl Öffentlicher Korpus, der viele Modell-Trainer speist Ja Blockieren, um aus dem offenen Korpus herauszubleiben; harmlos, wenn erlaubt
Bytespider ByteDance Training — speist Doubao Nein — dokumentierte Nichteinhaltung Auf WAF-/IP-Ebene blockieren — robots.txt allein stoppt ihn nicht

Zwei Zeilen verdienen einen zweiten Blick. Google-Extended ist gar kein echter Crawler — es ist ein Steuer-Token, das nie als HTTP-Anfrage in Ihren Server-Logs auftaucht. Es regelt nur, ob Google Seiten, die es bereits (mit dem normalen Googlebot) gecrawlt hat, zum Training von Gemini und Vertex AI verwenden darf. Und Bytespider (ByteDance) hat eine dokumentierte Vorgeschichte, robots.txt uneinheitlich zu ignorieren, weshalb das Blockieren eine Firewall- oder IP-Regel statt eines höflichen Disallow erfordert.

Die Unterscheidung, die die ganze Arbeit leistet

Ein Trainings-Crawler verwandelt Ihren Inhalt in Modellgewichte, für die Sie nie Anerkennung erhalten. Ein Such-Crawler verwandelt Ihren Inhalt in eine zitierte Antwort, die Ihnen einen Besucher zurückschicken kann. Den ersten zu blockieren und den zweiten zu erlauben ist die gesamte Strategie von 2026 — und nur möglich, weil die Anbieter die beiden endlich getrennt haben. GPTBot ist nicht OAI-SearchBot. ClaudeBot ist nicht Claude-SearchBot. Behandeln Sie sie als einen Topf und Sie löschen sich aus dem am schnellsten wachsenden Verweis-Kanal des Jahres.
Infografik: die KI-Crawler-Entscheidungsmatrix 2026 — was jeder Bot tut (GPTBot, OAI-SearchBot, ClaudeBot, Claude-SearchBot, PerplexityBot, Google-Extended, CCBot, Bytespider) und die Empfehlung Zulassen/Blockieren für eine kleine Website

Die Ökonomie: Traffic-Verlust vs. Zitat-Verlust

Die Entscheidung blockieren oder erlauben ist in Wahrheit ein Abwägen zwischen zwei Arten von Verlust. Cloudflares Crawl-to-Referral-Verhältnis ist die Zahl, die das einrahmt.

Das geschäftliche Argument für das Blockieren von Trainings-Crawlern läuft auf ein einziges Verhältnis hinaus: wie viele Ihrer Seiten ein Bot crawlt für jeden Besucher, den er zurückschickt. Cloudflare veröffentlicht dieses Crawl-to-Referral-Verhältnis über sein Netzwerk, und die Spannweite zwischen Anbietern ist außergewöhnlich. Der traditionelle Googlebot liegt bei etwa 5 gecrawlten Seiten pro Referral. Anthropics ClaudeBot crawlte auf seinem Höchststand im Juni 2025 rund 70.900 Seiten für jeden Besucher, den er zurückverwies — eine Asymmetrie, die den Trainingszugang als einseitige Wertextraktion neu rahmt.[5]

Crawl-to-Referral-Verhältnis — gecrawlte Seiten pro zurückgeschicktem Besucher

Niedriger ist fairer für Verlage. Trainings-Crawler nehmen weit mehr, als sie geben[3][5][9]

ClaudeBot / Anthropic (Höchststand, Juni 2025)
70900:1
ClaudeBot / Anthropic (Juli 2025)
38000:1
GPTBot / OpenAI
1276:1
PerplexityBot
194:1
Googlebot (klassische Suche)
5:1
DuckDuckGo (nahezu Gleichstand)
1.5:1

Die Balken liegen auf einer einzigen linearen Skala, deshalb wirkt alles unter ClaudeBot winzig — das ist der Punkt. ClaudeBots Höchststand (~70.900:1) und GPTBot (1.276:1) lassen Googlebot (~5:1) und DuckDuckGo (~1,5:1) verschwinden. Bis Juli 2025 hatte sich Anthropic auf ~38.000:1 verbessert und Perplexity lag bei 194:1, doch die Kluft bleibt enorm.

Doch es gibt einen Haken, der „blockieren Sie einfach die Trainings-Bots“ daran hindert, gratis zu sein, und es ist die wichtigste Nuance dieses ganzen Artikels. Das Blockieren hat Nebenwirkungen auf Zitate. AuthorityTechs Analyse von 2026 fand, dass Seiten, die Google-Extended blockieren, deutlich seltener von generativen Engines zitiert werden — sogar in AI Overviews, wo Google technisch über den normalen Index Zugriff auf den Inhalt behält.[11] Und die Daten von ppc.land zeigen, dass das Blockieren auch in die andere Richtung durchlässig ist: KI-Crawler zu blockieren stoppt Zitate nicht zuverlässig, weil Engines aus alternativen Pfaden, Zitaten Dritter und zwischengespeicherten Kopien schöpfen.[10] Sie können den Sichtbarkeitsvorteil verlieren, ohne die Privatsphäre, für die Sie blockiert haben, ganz zu gewinnen.

Auf der anderen Seite der Waage steht der Traffic-Schaden, der die Leute überhaupt erst zum Blockieren treibt. Googles AI Overviews haben den Verweis-Traffic messbar gesenkt: Digital Content Next berichtet Traffic-Rückgänge von 1–25 % für Mitglieder, im Schnitt rund 25 %, und die Klickraten fallen je nach Anfragetyp um 34,5 % bis 79 %, wenn ein AI Overview erscheint.[8] Von ppc.land befragte Verlage erwarten in den nächsten drei Jahren einen weiteren Traffic-Rückgang von 43 %.[10] Wenn die KI Ihren Traffic nimmt und Sie zugleich 70.000 zu 1 crawlt, ist der Drang, die Zugbrücke hochzuziehen, verständlich.

Was AI Overviews dem Traffic kleiner Seiten antun

Der Schaden, der Betreiber zum Blockieren treibt — und warum die Entscheidung dringlich wirkt[8][10]

Rückgang der organischen CTR bei einem AI Overview (max.)
79%
Erwarteter zusätzlicher Traffic-Rückgang in 3 Jahren (Verlage)
43%
Rückgang der CTR bei einem AI Overview (min.)
34.5%
Durchschn. Traffic-Rückgang der Mitglieder (Digital Content Next)
25%
Top-1000-Seiten, die GPTBot blockieren
25%

Rund ein Viertel der Top-1000-Seiten blockiert inzwischen GPTBot. Aber beachten Sie, was das alleinige Blockieren von GPTBot nicht tut: Es entfernt Sie nicht aus den AI Overviews (anderer Index) und hindert ChatGPT Search nicht daran, Sie zu zitieren (das ist OAI-SearchBot). Der Traffic-Schaden und der Crawler, den Sie blockieren, hängen oft nicht einmal zusammen.

Der KI-Crawler-Anteil konsolidiert sich um zwei Akteure

GPTBot und ClaudeBot haben ihren Anteil am KI-Crawling mehr als verdoppelt; Bytespider brach ein[3]

GPTBot — Anteil jetzt (war 4,7 %)
11.7%
ClaudeBot — Anteil jetzt (war 6 %)
10%
Claude-SearchBot — Neuzugang (Mai 2026)
2%
Bytespider — Anteil jetzt (war 14,1 %)
2.4%

Zwischen 2024 und Mitte 2025 stieg GPTBots Anteil am KI-Crawling von 4,7 % auf 11,7 % und ClaudeBot von 6 % auf ~10 %, während ByteDances Bytespider von 14,1 % auf 2,4 % fiel. Im Mai 2026 tauchte Anthropics dedizierter Claude-SearchBot mit 2,00 % Anteil auf — das erste Mal, dass der Such-Crawler eines großen Anbieters als eigenständiger, beachtlicher Akteur erschien.

Infografik: die Ökonomie des Blockierens von KI-Crawlern — Crawl-to-Referral-Verhältnisse (ClaudeBot ~70.900:1, GPTBot ~1.276:1, PerplexityBot ~194:1, Googlebot ~5:1) und die ~0 % Verbesserung bei Zitationen durch llms.txt trotz ~10 % Verbreitung

Googles neues Opt-out — und warum Google-Extended es nicht ist

Die Steuerung, die Verlage seit zwei Jahren wollten, kam endlich im Juni 2026. Sie ist nicht dasselbe wie Google-Extended, und der Unterschied zählt.

Zwei Jahre lang war die meistgestellte Frage zu KI-Crawlern eine Variante von: „Wie erscheine ich in der normalen Google-Suche, aber nicht in den AI Overviews?“ Bis Juni 2026 lautete die ehrliche Antwort „gar nicht“. Google-Extended — das Token, zu dem die meisten griffen — steuert nur, ob Google Gemini und Vertex AI mit Ihren bereits gecrawlten Seiten trainiert. Es hat nie die AI Overviews oder den AI Mode gesteuert, die den Standard-Googlebot-Index nutzen. Google-Extended zu blockieren tat nichts, um Sie aus den KI-Zusammenfassungen herauszuhalten, die tatsächlich Ihre Klicks fraßen.[8]

Das änderte sich am 3. Juni 2026, als Google einen KI-Leistungsbericht in der Search Console zusammen mit einem Opt-out-Schalter einführte, mit dem Verlage Inhalte aus AI Overviews und AI Mode entfernen können, ohne das Standard-Such-Ranking zu verlieren.[6] Die Einstellung wird am 17. Juni 2026 wirksam, wenn Google beginnt, das Signal zu befolgen, und ihre Aktivierung beeinflusst Ihre Position in den normalen Google-Ergebnissen nicht.[7] Zwei Vorbehalte zum zweimaligen Lesen: Die eigenständige Gemini-App ist ausgeschlossen von diesem Opt-out (sie ist ein separates Produkt), und sich abzumelden bedeutet zu akzeptieren, dass auch die Zitate/Sichtbarkeit verschwinden, die Sie aus den AIO erhielten.

Was welcher Google-Hebel tut

  • Google-Extended (robots.txt-Token) → Abmeldung vom Gemini-/Vertex-Training. Entfernt Sie nicht aus den AI Overviews.
  • GSC-KI-Opt-out-Schalter (wirksam 17. Juni 2026) → entfernt Inhalte aus AI Overviews und AI Mode, behält das normale Ranking. Schließt die Gemini-App aus.
  • Disallow Googlebot → nukleare Option; entfernt Sie ganz aus Google, einschließlich der normalen Suche, die echte Klicks liefert. Fast nie die richtige Wahl.

Die empfohlene Standardkonfiguration für 2026

Drei Profile, eine Entscheidung. Wählen Sie das, das zu Ihrem Ziel passt, und kopieren Sie die robots.txt unten.

Es gibt nicht die eine richtige Konfiguration — es gibt eine richtige Konfiguration für Ihr Ziel. Hier sind die drei Profile, die fast jede kleine Seite abdecken, von „ich will in jeder Antwort sein“ bis „halte mich ganz aus KI heraus“.

Profil Für wen Trainings-Bots Such-Bots Warum
Maximale Sichtbarkeit Die meisten kleinen Seiten, Blogs, lokale Unternehmen Alle erlauben Alle erlauben Sie wollen in jeder Antwort sein. Die Bandbreitenkosten sind im kleinen Maßstab vernachlässigbar, und das Blockieren des Trainings hat messbare Nebenwirkungen auf Zitate.
Training blockieren, Zitate behalten Verlage, Seiten mit Originalforschung, alle, die einseitige Extraktion ablehnen GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended, Bytespider (WAF) blockieren OAI-SearchBot, Claude-SearchBot, PerplexityBot, ChatGPT-User, Claude-User erlauben Die Konsens-Voreinstellung von 2026 für Content-Unternehmen: die einseitige Extraktion stoppen, den Zitat-Kanal offen halten.
Vollständig raus aus KI-Antworten Bezahlte, mitgliedergebundene oder rechtlich heikle Inhalte Alle Trainings-Bots blockieren Alle Such-/Antwort-Bots blockieren + das neue GSC-KI-Opt-out aktivieren (wirksam 17. Juni 2026) Sie nehmen den Zitat-Verlust in Kauf, um Inhalte aus KI-Oberflächen herauszuhalten. Das normale Google-Ranking wird vom GSC-Schalter nicht beeinflusst.

Für die meisten kleinen Seiten lautet die ehrliche Empfehlung Profil 1 — alles erlauben. Ihr Ziel ist Sichtbarkeit, die Bandbreitenkosten des KI-Crawlings sind im kleinen Maßstab vernachlässigbar, und das Blockieren von Trainings-Crawlern bringt Nebenwirkungen auf Zitate mit sich, die Sie nicht vollständig vorhersagen können. Das Profil „Training blockieren, Zitate behalten“ (Profil 2) ist die richtige Voreinstellung für Content-Unternehmen, Verlage und alle, die Originalforschung veröffentlichen und einseitige Extraktion wirklich ablehnen. Profil 3 ist nur für bezahlte, mitgliedergebundene oder rechtlich heikle Inhalte.

Crawler-Hygiene öffnet die Tür — Inhalt macht es wert, hindurchzugehen

Ihre Crawler-Hygiene richtig hinzubekommen öffnet nur die Tür: Sie entscheidet, ob GPTBot, OAI-SearchBot, ClaudeBot und PerplexityBot Sie überhaupt lesen dürfen. Was sie drinnen finden, ist die andere Hälfte der Arbeit. KI-Antwort-Engines gewichten frischen, regelmäßig aktualisierten Inhalt, und eine Seite, die einmal pro Quartal veröffentlicht, gibt einem wiederkehrenden Such-Bot fast nichts Neues zum Zitieren. Genau diesen kontinuierlichen Veröffentlichungsrhythmus automatisiert News Factory: ab dem Pro-Tarif überwachen seine KI-Agenten Branchen-RSS-Feeds, verfassen vollständige Artikel und veröffentlichen automatisch auf WordPress, Drupal oder Joomla nach einem von Ihnen festgelegten Zeitplan — Sie genehmigen jeden Beitrag oder lassen die Agenten eigenständig arbeiten — in bis zu fünf Sprachen. Es rührt Ihre robots.txt nicht an (dieser Teil bleibt in Ihren Händen, genau wie dieser Leitfaden beschreibt), aber es hält die Inhaltsseite der Zitat-Gleichung gefüttert, damit die Crawler, die Sie gerade hereingelassen haben, immer etwas Aktuelles zum Mitnehmen haben.

Wie Sie sehen, welche Bots Sie wirklich besuchen

Bevor Sie etwas blockieren, sehen Sie sich Ihre Logs an. Vielleicht optimieren Sie für einen Crawler, der nie kommt — oder blockieren einen, der all Ihre Zitate antreibt.

Im Dunkeln geschriebene Regeln sind Rätselraten. Investieren Sie zwanzig Minuten, um zu sehen, wer Sie wirklich crawlt, bevor Sie eine einzige Zeile ändern, denn die Bot-Landschaft variiert je nach Nische enorm. Hier ist der praktische Monitoring-Stack, vom Günstigsten zum Übrigen:

  • Server-/CDN-Zugriffslogs. Filtern Sie nach User-Agent für GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, Claude-SearchBot, PerplexityBot, CCBot und Bytespider. Das zeigt Ihnen Häufigkeit und welche Seiten jeder Bot anfasst. Hinweis: Google-Extended erscheint nie — es ist ein Token, keine Anfrage.
  • Cloudflare Radar AI Insights. Wenn Sie hinter Cloudflare sind, zeigt das kostenlose AI-Insights-Dashboard die KI-Crawler-Aktivität und die in diesem Artikel zitierten Crawl-to-Referral-Daten.
  • Google Search Console. Der neue KI-Leistungsbericht (Juni 2026) ist der Ort, wo Sie die Impressionen von AI Overviews / AI Mode sehen — und wo der Opt-out-Schalter sitzt.
  • Authentizität prüfen. Gefälschte User-Agents sind verbreitet. Gleichen Sie verdächtige Zugriffe mit den veröffentlichten IP-Bereichen ab — OpenAI listet sie unter openai.com/gptbot.json, openai.com/searchbot.json und openai.com/chatgpt-user.json.

Der 30-Minuten-Crawler-Hygiene-Check

  1. Ziehen Sie die Zugriffslogs des letzten Monats; listen Sie jeden KI-User-Agent, der Sie besucht hat, und wie oft.
  2. Öffnen Sie Ihre aktuelle robots.txt. Erwähnt sie noch nur GPTBot? Aktualisieren Sie sie auf die Botliste von 2026 mit dem Profil, das zu Ihrem Ziel passt.
  3. Stellen Sie sicher, dass Sie OAI-SearchBot, Claude-SearchBot oder PerplexityBot nicht versehentlich blockieren — das ist der Fehler der 71 % der Verlage.
  4. Fügen Sie eine WAF-Regel für Bytespider hinzu, falls Ihre Logs zeigen, dass er Ihre robots.txt ignoriert.
  5. Entscheiden Sie über die AI Overviews separat: lassen Sie sie, oder nutzen Sie das GSC-Opt-out ab dem 17. Juni 2026. Erwarten Sie nicht, dass Google-Extended diese Arbeit erledigt.
  6. Veröffentlichen Sie optional eine llms.txt, falls Ihr Stack sie erzeugt — und vergessen Sie sie dann und schreiben Sie Inhalte.

→ Tun Sie es jetzt: Öffnen Sie https://ihre-domain.com/robots.txt in einem Browser. Erwähnt sie weder OAI-SearchBot noch Claude-SearchBot, ist sie veraltet — und Sie sind womöglich unsichtbar für genau die KI-Suchprodukte, die Ihre Kunden nutzen. Wählen Sie ein Profil aus der Tabelle oben, fügen Sie die passende Konfiguration ein, und Sie haben mehr Crawler-Hygiene betrieben als die überwältigende Mehrheit kleiner Seiten in 2026.

Verwandte Beiträge

Quellen & Belege

[1] SE Ranking. „LLMs.txt: Warum Marken darauf setzen und warum es nicht funktioniert“ (Nov. 2025) — Studie über 300.000 Domains. ~10,13 % Adoption, nahezu identisch über alle Traffic-Stufen; kein statistisch signifikanter Unterschied bei KI-Zitaten zwischen Seiten mit und ohne llms.txt. seranking.com →
[2] Search Engine Land. „Spielt llms.txt eine Rolle? Wir haben 10 Seiten verfolgt“ (20. Jan. 2026) — 90-Tage-Vorher-Nachher-Analyse über 10 Websites. Nur zwei verzeichneten KI-Traffic-Zuwächse, nicht der Datei zuzuschreiben. searchengineland.com →
[3] Cloudflare. „The crawl-to-click gap“ (29. Aug. 2025) — Training macht jetzt ~80 % des KI-Crawlings aus (vorher 72 %); GPTBot 4,7 %→11,7 %, ClaudeBot 6 %→~10 %, Bytespider 14,1 %→2,4 %; Anthropic 38.000 Crawls pro Referral im Juli, Perplexity 194:1, Googlebot ~5:1. blog.cloudflare.com →
[4] Soar Agency. „Wie KI-Bots Ihre Seite crawlen: ein robots.txt-Leitfaden für GPTBot, ClaudeBot und PerplexityBot“ — Eigentümer, Zweck, User-Agent und robots.txt-Konformität jedes Bots der Landschaft 2026. soar.sh →
[5] Digital Applied. „AI Crawler Access Control: The 2026 Decision Matrix“ (4. Juni 2026) — die Trennung Trainings-Bot vs. Such-Indexer; Cloudflares Crawl-to-Referral-Ökonomie (Anthropic Höchststand ~70.900:1, Googlebot ~5:1); ~71 % der großen Nachrichtenverlage blockieren mindestens einen Retrieval-/Such-Bot, oft versehentlich. digitalapplied.com →
[6] Digital Applied. „GSC AI Reports: Sollten Sie Googles KI-Antworten blockieren?“ (3. Juni 2026) — der KI-Leistungsbericht in der Search Console und der Opt-out-Schalter, der Inhalte aus AI Overviews und AI Mode entfernt, ohne das Standard-Ranking zu verlieren. digitalapplied.com →
[7] TechTimes. „Googles AI-Overviews-Opt-out kommt in die Search Console: Gemini ausgeschlossen“ (8. Juni 2026) — das Opt-out-Signal wird am 17. Juni 2026 wirksam; das Aktivieren beeinflusst das Standard-Ranking nicht; die Gemini-App ist vom Opt-out ausgeschlossen. techtimes.com →
[8] ALM Corp. „Google AI Overviews Opt-Out: Leitfaden für Verlagskontrollen 2026“ (28. Jan. 2026) — Digital Content Next: Traffic-Rückgänge von 1–25 % (Durchschnitt ~25 %); CTR fällt um 34,5–79 %, wenn AI Overviews erscheinen; Google-Extended steuert die Aufnahme in AI Overviews nicht. almcorp.com →
[9] SEOmator. „GEO Data Report 2026: Welche KI-Crawler und LLM-Bots am meisten nehmen“ — Cloudflare-Radar-Analyse: ClaudeBot ~13.528–23.951 Seiten pro Referral; GPTBot 1.276:1; Crawl-to-Refer-Aufschlüsselung pro Engine. seomator.com →
[10] ppc.land. „KI-Crawler zu blockieren stoppt Zitate nicht — neue Daten zeigen warum“ (6. Apr. 2026) — Verlage erwarten einen zusätzlichen Traffic-Rückgang von 43 % in drei Jahren; das Blockieren ist durchlässig, weil Engines über alternative Pfade zitieren. ppc.land →
[11] AuthorityTech. „Googles AI Overviews senken Traffic um 15 % — was Zitate gewinnt (2026)“ — Seiten, die Google-Extended blockieren, werden deutlich seltener von generativen Engines zitiert, sogar in AI Overviews. authoritytech.io →
[12] OpenAI. „Overview of OpenAI Crawlers“ — offizielle Dokumentation zu GPTBot (Training), OAI-SearchBot (ChatGPT Search) und ChatGPT-User (nutzerinitiierter Abruf), mit User-Agents und veröffentlichten IP-Bereichen. platform.openai.com →
[13] Anthropic. „Crawlt Anthropic Daten aus dem Web, und wie können Seitenbetreiber den Crawler blockieren?“ — dokumentiert ClaudeBot (Training), Claude-SearchBot (Suchindex) und Claude-User (nutzerinitiiert); Anthropic verpflichtet sich, robots.txt zu beachten. privacy.claude.com →
[14] Elementera AI. „Was ist llms.txt und wie implementiert man es für KI-Bots (Leitfaden 2026)“ — Limy.AI überwachte über 500 Mio. KI-Bot-Ereignisse in 90 Tagen und nur 408 Anfragen zielten auf llms.txt; geschätzte 5–15 % Adoption Anfang 2026. elementera.com →
Teilen