Préférences

La confidentialité est importante pour nous. Vous avez donc la possibilité de désactiver certains types de stockage qui peuvent ne pas être nécessaires au fonctionnement de base du site Web. Le blocage des catégories peut avoir un impact sur votre expérience sur le site Web. Plus d'informations

Accepter tous les cookies

Website-Crawlability-KI-Audit: Können KI-Bots tatsächlich auf Ihre Website zugreifen?

Prüfen Sie, ob KI-Crawler auf Ihre Website zugreifen und sie rendern können. Erkennen Sie robots.txt-Blocker, JavaScript-Probleme, Sitemap-Lücken und andere Hindernisse für die KI-Indexierung.

Thibault Besson-Magdelain fondateur de Sorank

Über den Autor

Thibault Besson-Magdelain

Gründer von Sorank, +5 Jahre Erfahrung im Bereich SEO, GEO-Enthusiast.

Alles über Website-Crawlability-KI-Audit erfahren!

Created on
30/5/26
Last update :
13/6/26
Website-Crawlability-KI-Audit-Oberfläche mit Crawl-Zugangs-Ergebnissen und Blockierungsproblemen für KI-Bots

Hochwertige, gut strukturierte Inhalte zu produzieren ist für GEO nur nützlich, wenn KI-Crawler tatsächlich auf diese Inhalte zugreifen und sie rendern können. Eine einzige falsch platzierte robots.txt-Direktive, ein JavaScript-lastiger Rendering-Stack oder eine fehlende llms.txt-Datei können Ihre gesamte Website stillschweigend von den Trainings- und Abrufpipelines jeder großen KI-Engine ausschließen. Das oben stehende Tool auditiert eine von Ihnen angegebene Domain und prüft, ob die wichtigsten KI-Crawler, einschließlich GPTBot, OAI-SearchBot, PerplexityBot, Google-Extended und ClaudeBot, auf Ihre Seiten zugreifen und sie korrekt verarbeiten können.

Was das Audit prüft

Das oben stehende Tool bewertet vier Hauptkategorien der Crawlability:

  • Robots.txt-Direktiven: das Audit liest Ihre robots.txt-Datei und identifiziert, welche KI-Crawler-User-Agents explizit blockiert, versehentlich durch Wildcard-Regeln blockiert oder in keiner Allowlist vorhanden sind. Es prüft auch, ob die Datei selbst zugänglich, korrekt formatiert ist und das 500-KB-Limit nicht überschreitet, das einige Crawler durchsetzen.
  • Meta-Robots und X-Robots-Tag-Header: ein robots.txt, das das Crawling erlaubt, ist unzureichend, wenn einzelne Seiten ein noindex- oder noarchive-Meta-Tag tragen, oder wenn Server-Antwort-Header Bots anweisen, die Seite zu überspringen. Das Audit untersucht beide Quellen.
  • JavaScript-Rendering-Abhängigkeit: Seiten, die kritische Inhalte ausschließlich über JavaScript bereitstellen, sind für Crawler unsichtbar, die keine Skripte ausführen. Das Audit erkennt, ob der Hauptinhalt auf Ihren Seiten im rohen HTML verfügbar ist oder erst nach dem clientseitigen Rendering.
  • Sitemaps und llms.txt: eine gut gepflegte sitemap.xml hilft KI-Crawlern, Seiten effizient zu entdecken. Der neuere llms.txt-Standard, nach dem Vorbild von robots.txt, aber speziell für LLMs konzipiert, lässt Sie erklären, welche Teile Ihrer Website für die KI-Nutzung geeignet sind, und fasst Ihre Inhalte maschinenlesbar zusammen. Das Audit prüft, ob beide Dateien vorhanden und korrekt formatiert sind.

Wie Sie die Ergebnisse interpretieren und handeln

Das oben stehende Tool markiert jedes Problem mit einem Schweregrad. So priorisieren Sie Ihre Maßnahmen:

  • Blockierte KI-Crawler in robots.txt: entfernen oder engen Sie die Direktive ein, die den relevanten User-Agent blockiert. Wenn Sie absichtlich alle KI-Crawler aus Lizenzgründen blockieren, bestätigen Sie, dass es sich um eine bewusste Richtlinienentscheidung und nicht um eine versehentliche Wildcard-Blockierung aus einer CMS-Vorlage handelt.
  • Noindex auf Schlüsselseiten: prüfen Sie jede markierte Seite. Wenn eine Seite wertvolle Inhalte enthält, die Sie zitiert haben möchten, entfernen Sie die noindex-Direktive. Wenn die Seite absichtlich ausgeschlossen ist, vergewissern Sie sich, dass die Blockierung tatsächlich beabsichtigt war und keine nach dem Start beibehaltene Staging-Umgebungsdirektive ist.
  • Nur-JavaScript-Inhalte: implementieren Sie serverseitiges Rendering (SSR) oder statische Site-Generierung (SSG) für Inhalte, die KI-Crawler indizieren sollen. Stellen Sie mindestens sicher, dass Seitentitel, Überschriften und die ersten 200 Wörter des Textes im vom Server gerenderten HTML verfügbar sind, bevor JavaScript ausgeführt wird.
  • Fehlende oder veraltete Sitemap: generieren Sie eine neue sitemap.xml, die alle kanonischen URLs einschließt, weitergeleitete oder noindex-Seiten ausschließt und in robots.txt referenziert wird. Aktualisieren Sie sie automatisch, wann immer neue Inhalte veröffentlicht werden.
  • Keine llms.txt-Datei: erstellen Sie eine llms.txt-Datei im Stammverzeichnis Ihrer Domain. Fügen Sie mindestens eine kurze Beschreibung Ihrer Website, die behandelten Hauptthemen und Links zu Ihren wichtigsten Seiten hinzu. Dies ist ein aufwandsgünstiges Signal, das die Kategorisierung Ihrer Website durch KI-Crawler erheblich verbessern kann.

Ein Richtwert zum KI-Crawl-Zugang

AI Overviews erscheinen jetzt bei etwa 31% der Google-Anfragen, und Seiten auf Position 1 hinter einem AI Overview verlieren bis zu 58% der erwarteten Klicks (Ahrefs, 2025). Die Seiten, die diesen verschobenen Traffic aufnehmen, sind jene, die in der KI-Antwort zitiert werden. Crawlability ist die Voraussetzung: Wenn ein KI-Bot nicht auf Ihre Inhalte zugreifen kann, wird keine On-Page-Optimierung eine Zitierung einbringen. Das Beheben von Crawl-Barrieren ist daher der wirkungsvollste Ausgangspunkt für jede GEO-Strategie.

Für kontinuierliche Überwachung Ihrer KI-Crawlability und Zitierungsleistung auf allen großen KI-Engines verfolgt Sorank Ihre GEO-Sichtbarkeit und alarmiert Sie bei Zugriffsänderungen.

Häufig gestellte Fragen

Welche KI-Crawler-User-Agents sollte ich in robots.txt erlauben?

Die wichtigsten KI-Crawler-User-Agents sind: GPTBot (OpenAI-Training), OAI-SearchBot (SearchGPT-Abruf), PerplexityBot (Perplexity), Google-Extended (Google-KI-Training und Gemini), ClaudeBot (Anthropic) und Meta-ExternalAgent (Meta AI). Wenn Sie keinen spezifischen Lizenzierungsgrund haben, sie zu blockieren, maximiert das Erlauben aller Ihre potenzielle KI-Sichtbarkeit.

Was ist llms.txt und ist es erforderlich?

llms.txt ist eine aufkommende Konvention, ähnlich wie robots.txt, die eine Klartextzusammenfassung des Inhalts und der Struktur einer Website speziell für LLMs bereitstellt. Es ist kein erforderlicher Standard, aber es ist ein kostengünstiges Signal, das KI-Systemen hilft, den Zweck Ihrer Website zu verstehen und Ihre wichtigsten Seiten zu identifizieren. Die Erstellung wird für jede Website empfohlen, die GEO ernst nimmt.

Blockiert das Blockieren von Googlebot auch Googles KI-Crawler?

Nein. Google-Extended, das für KI-Training und Gemini verwendet wird, ist ein separater User-Agent von Googlebot. Sie können Google-Extended blockieren, ohne Ihre Standard-Google-Search-Indexierung zu beeinflussen, und umgekehrt. Geben Sie User-Agents in robots.txt immer explizit an, anstatt sich auf Wildcard-Regeln zu verlassen, die versehentlich mehrere Crawler erfassen könnten.

Unsere Ressourcen