Robots.txt: Der vollständige Leitfaden mit Beispielen

Über den Autor

Thibault Besson-Magdelain

Gründer von Sorank, +5 Jahre Erfahrung im Bereich SEO, GEO-Enthusiast.

Was ist Robots.txt und wie Suchmaschinen es nutzen

Robots.txt ist eine standardisierte Text-Datei, die Crawl-Anweisungen an Suchmaschinen-Bots kommuniziert. Wenn ein Bot Ihre Seite zuerst besucht, fordert er `/robots.txt` an, bevor er etwas anderes crawlt. Der Robot liest die Regeln und befolgt sie (angenommen, der Bot ist gut verhalten).

Googles robots.txt-Dokumentation ist die autoritäre Referenz für den Standard. Das robots.txt-Format wurde 1994 erstellt und weit verbreitet. Alle großen Suchmaschinen (Google, Bing, Baidu) respektieren robots.txt.

Wichtig: Robots.txt ist eine Richtlinie, keine Firewall. Gut verhältnete Bots (Google, Bing) respektieren robots.txt-Regeln. Bösartige Bots und Scraper ignorieren robots.txt. Nutzen Sie robots.txt, um Suchmaschinen-Crawling zu verwalten, nicht um Hacker oder Scraper zu blockieren. Nutzen Sie für Sicherheit Server-Level-Tools.

Robots.txt-Syntax und Grund-Regeln

Robots.txt nutzt einfache Text-Syntax. Jede Regel hat zwei Teile: einen User-Agent (auf welchen Bot die Regel angewendet wird) und Disallow-Pfade (welche Seiten zu blockieren sind).

Grund-Beispiel:

User-agent: * Disallow: /admin/ Disallow: /staging/ Sitemap: https://example.com/sitemap.xml

Dies teilt allen Bots (`*` bedeutet alle) mit, die `/admin/` und `/staging/`-Verzeichnisse nicht zu crawlen. Die Sitemap-Zeile teilt Bots mit, wo Ihre Sitemap vorhanden ist.

User-agent: * bedeutet alle Bots. Sie können auch individuelle Bots spezifizieren:

`User-agent: Googlebot` gilt nur für Googles Bot. `User-agent: Bingbot` gilt nur für Bings Bot. Sie können mehrere User-Agent-Abschnitte mit unterschiedlichen Regeln haben.

Disallow: /path/ teilt Bots mit, diesen Pfad nicht zu crawlen. Disallow: / blockiert die gesamte Seite. Disallow: (leer) erlaubt alles. Sie können mehrere Disallow-Regeln pro User-Agent listen.

Allow: /path/ erlaubt das Crawlen eines spezifischen Pfads, auch wenn ein übergeordnetes Verzeichnis blockiert ist. Beispiel: Disallow: /temp/ aber Allow: /temp/important/ erlaubt das Crawlen nur des /important/-Unterverzeichnisses.

Allgemeine Robots.txt-Muster

Muster 1: Admin-Seiten blockieren

User-agent: * Disallow: /admin/ Disallow: /user/ Disallow: /account/

Dies blockiert administrative, Nutzer- und Konto-Seiten vom Crawlen. Diese Seiten sind normalerweise nicht für Suchmaschinen gedacht.

Muster 2: Staging-Umgebung blockieren

User-agent: * Disallow: /staging/ Disallow: /test/

Verhindert, dass Bots Test- oder Staging-Versionen Ihrer Seite crawlen.

Muster 3: Spezifische Dateitypen blockieren

User-agent: * Disallow: /*.pdf Disallow: /*.zip

Verhindert, dass Bots PDFs und ZIP-Dateien crawlen. Dies ist nützlich, wenn Sie viele PDFs haben, die nicht indexiert werden sollten.

Muster 4: Langsame Bots, die den Server hammer

User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Crawl-delay: 10

Blockiert vollständig Ahrefs Bot (wenn Sie nicht möchten, dass Ihre Seite von SEO-Tools gecrawlt wird). Verlangsamt Semrush Bot durch eine 10-Sekunden-Verzögerung zwischen Anfragen. Crawl-Delay ist nützlich für aggressive Bots, die Ihren Server überlasten.

Muster 5: Alles erlauben (Standard)

User-agent: * Disallow:

Dies ist der Standard. Leeres Disallow bedeutet alles erlauben. Sie können auch robots.txt komplett weglassen, wenn Sie alle Content-Crawl-Möglichkeiten wollen.

Robots.txt vs Meta Robots Noindex

Robots.txt blockiert Crawling. Meta Robots noindex blockiert Indexierung. Diese dienen verschiedenen Zwecken.

Nutzen Sie robots.txt wenn: Sie Crawl-Budget sparen wollen. Sie doppelten Content haben, der nicht gecrawlt werden sollte. Sie Admin-Seiten haben, die Bots nicht berühren sollten. Sie aggressive Bots verlangsamen wollen.

Nutzen Sie Meta Robots noindex wenn: Sie eine Seite crawlen wollen, aber nicht indexieren (um Fehler und Probleme zu sehen). Sie Indexierung verhindern, aber interne Links und Crawling erlauben wollen. Sie eine Seite schließlich aus der Suche entfernen, aber live halten wollen.

Beispiel: Paginierte Seiten wie `/products?page=2` können durch robots.txt blockiert werden, um Crawl-Budget zu sparen (da Google typischerweise Paginierung konsolidiert). Aber Sie könnten sie crawlen wollen, um Canonical-Beziehungen zu identifizieren. In diesem Fall, nutzen Sie stattdessen Canonicals.

Crawl-Budget mit Robots.txt verwalten

Crawl-Budget ist die Anzahl der URLs, die Google täglich auf Ihrer Seite crawlt. Große Seiten mit Millionen Seiten können nicht alle täglich gecrawlt werden. Google allokiert Crawl-Budget basierend auf Ihrer Seiten-Autorität und Änderungshäufigkeit. Crawl-Budget ist endlich. Das Verschwenden auf unwichtige Seiten bedeutet, dass wichtige Seiten weniger häufig gecrawlt werden.

Optimieren Sie Crawl-Budget durch das Blockieren von Seiten, die nicht gecrawlt werden sollten: doppelter Content, paginierte Suchergebnisse, Nutzer-Konto-Seiten, Test-Seiten. Jede Seite, die Sie blockieren, gibt Google mehr Budget, um Ihren wichtigen Content zu crawlen.

Häufige Crawl-Budget-Verschwender: unendliche Paginierung (Produkt-Filter erstellen unbegrenzte URLs), doppelter Content mit unterschiedlichen Parametern, Session-IDs an jede URL anghängt, Kalender/Event-Seiten, die unbegrenzte URLs generieren. Nutzen Sie robots.txt, um diese Muster zu blockieren.

Google Search Console zeigt Ihre Seiten-Crawl-Statistiken. Überwachen Sie tägliche Crawl-Anfragen. Wenn Google die gleichen Seiten wiederholt crawlt ohne neuen Content zu entdecken, überprüfen Sie Ihre robots.txt und Blockierungs-Strategie.

Sitemap in Robots.txt

Beziehen Sie Ihre Sitemap-URL in robots.txt ein. Fügen Sie `Sitemap: https://example.com/sitemap.xml` am Ende Ihrer robots.txt-Datei hinzu. Dies teilt Google mit, wo Ihre XML-Sitemap zu finden ist. Sie können mehrere Sitemaps listen, wenn Sie mehrere Dateien haben.

Beispiel:

User-agent: * Disallow: /admin/ Sitemap: https://example.com/sitemap.xml Sitemap: https://example.com/sitemap-news.xml

Sitemaps in robots.txt zu listen ist optional (Sie können Sitemaps via Google Search Console einreichen), aber es ist Best Practice.

Testen und Validieren von Robots.txt

Google Search Console hat einen robots.txt-Tester. Gehen Sie zu Settings > Crawling > Test robots.txt. Geben Sie eine URL ein und sehen Sie, ob robots.txt sie blockiert. Dies ist unbezahlbar für Validierung Ihrer Regeln, bevor Sie sie einspeisen.

Testen Sie immer vor dem Einspeisen von robots.txt-Änderungen. Ein einziger Fehler (wie `Disallow: /` der Ihre gesamte Seite blockiert) kann Ihre Rankings zum Absturz bringen. Nutzen Sie den Tester, um zu verifizieren, dass:

Wichtige Seiten werden nicht blockiert. Admin-Seiten werden blockiert. Doppelter Content-Muster wird blockiert. Keine kritischen Pfade werden verbrochen blockiert.

Nach dem Einspeisen von robots.txt, überwachen Sie Googles Crawl-Report in Search Console auf Änderungen. Wenn die Crawl-Rate unerwartet sinkt, haben Sie möglicherweise versehentlich wichtigen Content blockiert.

Allgemeine Robots.txt-Fehler

Fehler 1: CSS und JavaScript blockieren. Wenn Sie `/css/` oder `/js/` in robots.txt blockieren, kann Google Ihr CSS und JavaScript nicht crawlen. Ohne CSS kann Google Ihre Seiten nicht richtig rendern. Blockieren Sie nicht CSS oder JavaScript.

Fehler 2: Wichtigen Content blockieren. Testen Sie immer vor dem Einspeisen. Ein Tippfehler wie `Disallow: /p` statt `Disallow: /staging/` kann `/products/` versehentlich blockieren.

Fehler 3: Robots.txt für Sicherheit nutzen. Verlassen Sie sich nicht auf robots.txt, um sensitive Daten zu schützen. Sicherheits-sensitive Seiten sollten Authentifizierung erfordern, nicht nur robots.txt. Robots.txt ist öffentlich und leicht umgangen.

Fehler 4: Inkonsistente robots.txt über Domains. Wenn Sie mehrere Domains haben, pflegen Sie konsistente robots.txt-Richtlinien. Verbrochen unterschiedliche Regeln können Crawl-Effizienz-Probleme verursachen.

Fehler 5: Sitemap selbst blockieren. Blockieren Sie nie `/sitemap.xml` in robots.txt. Google muss die Sitemap crawlen, um Seiten zu entdecken.

Fortgeschrittene Robots.txt-Funktionen

Crawl-delay und Request-Rate: Diese Direktiven verlangsamen Bots. `Crawl-delay: 10` fügt 10 Sekunden zwischen Anfragen hinzu. `Request-Rate: 1/10` erlaubt 1 Anfrage pro 10 Sekunden. Nutzen Sie diese für Bots, die Ihren Server überlasten. Google empfiehlt, stattdessen Search-Console-Einstellungen zu nutzen.

Allow-Direktive: Erlaubt das Crawlen eines spezifischen Pfads, auch wenn ein übergeordneter Pfad blockiert ist. Nützlich für Ausnahmen. Beispiel: `Disallow: /temp/` aber `Allow: /temp/keep/` erlaubt nur das keep-Unterverzeichnis.

Googles robots.txt-Spezifikation dokumentiert alle unterstützten Direktiven. Die meisten Funktionen sind selten nötig. Bleiben Sie bei Grund-User-Agent, Disallow und Sitemap für die meisten Seiten.

Fortgeschrittene Robots.txt-Direktiven

User-Agent-spezifische Regeln erlauben unterschiedliche Crawl-Regeln für unterschiedliche Bots. Sie können Regeln für Googlebot, Bingbot und andere User-Agents separat spezifizieren. Dies ist nützlich, wenn Sie Google Ihre gesamte Seite crawlen lassen, aber Bing von bestimmten Abschnitten einschränken wollen. Spezifizieren Sie User-Agent am Anfang jedes Regel-Blocks:

`User-agent: Googlebot` gilt Regeln nur für Googles Crawler. `User-agent: *` gilt Regeln für alle Bots. Regeln gelten für den spezifischen User-Agent bis zur nächsten User-Agent-Direktive. Sie können mehrere Regel-Blöcke für unterschiedliche Bots erstellen.

Crawl-Delay- und Request-Rate-Direktiven teilen Bots mit, wie oft sie crawlen. `Crawl-delay: 5` teilt dem Bot mit, 5 Sekunden zwischen Anfragen zu warten. Dies reduziert Server-Last. `Request-Rate: 1/10` teilt dem Bot mit, maximal 1 Anfrage pro 10 Sekunden zu machen. Googles robots.txt-Dokumentation detailliert alle unterstützten Direktiven.

Sitemap-Location-Direktiven teilen Bots mit, wo Ihre Sitemap zu finden ist. `Sitemap: https://example.com/sitemap.xml` zeigt Bots auf Ihre XML-Sitemap. Sie können mehrere Sitemaps spezifizieren. Dies ist empfohlen, da es Bots hilft, alle Ihre Seiten effizient zu entdecken.

Clean-Param-Direktive entfernt URL-Parameter vor dem Crawlen. `Clean-param: utm_source&utm_medium https://example.com` teilt Google mit, UTM-Parameter auf example.com zu ignorieren. Dies verhindert, dass Google verfolgte Links als doppelten Content behandelt. Dies ist heute weniger häufig, da Google die meisten Tracking-Parameter automatisch handhabt.

Testen Sie Ihre robots.txt-Datei im Google Search Console robots.txt-Tester. Das Tool zeigt, welche URLs durch Ihre robots.txt für Googlebot blockiert würden. Dies verhindert versehentliche Blockierung wichtiger Seiten.

Fazit

Robots.txt ist eine einfache aber kritische Datei für die Verwaltung von Suchmaschinen-Crawling und den Schutz der Privatsphäre Ihrer Seite. Eine gut konfigurierte robots.txt blockiert unwichtige Seiten, spart Crawl-Budget und verhindert, dass doppelter Content mehrfach gecrawlt wird. Falsch konfigurierte robots.txt kann versehentlich wichtigen Content blockieren und Ihre Rankings vergänstern.

Testen Sie immer robots.txt-Änderungen vor dem Einspeisen. Nutzen Sie Googles Search Console-Tester, um Regeln zu validieren. Überwachen Sie monatlich Ihre Crawl-Statistiken. Blockieren Sie unwichtigen Content und verwalten Sie Crawl-Budget effektiv. Nutzen Sie unser GEO-SEO-Audit-Tool, um Ihre robots.txt-Konfiguration zu prüfen und potenzielle Probleme mit Crawlbarkeit und Indexierung über Ihre gesamte Seite zu identifizieren.

Häufig gestellte Fragen

Verhindert robots.txt Indexierung oder nur Crawling?

Robots.txt verhindert nur Crawling, nicht Indexierung. Eine durch robots.txt blockierte Seite kann nicht gecrawlt werden, aber sie kann trotzdem indexiert werden, wenn Google die URL woanders findet (in einer Sitemap, durch Links von anderen Seiten). Um Indexierung zu verhindern, nutzen Sie stattdessen das Meta-Robots-noindex-Tag. Robots.txt ist für Crawl-Budget-Management, nicht Indexierungs-Kontrolle.

Kann robots.txt schlechte Bots und Scraper blockieren?

Robots.txt ist eine Richtlinie, keine Firewall. Gut verhältnete Bots (Google, Bing) respektieren robots.txt. Schlechte Bots und Scraper ignorieren robots.txt komplett. Um schlechte Bots zu blockieren, nutzen Sie Server-Level-Tools (IP-Blockierung, Rate-Limiting) oder Sicherheits-Tools wie Cloudflare. Robots.txt schützt Ihre Seite vor guten Bots, die den Standard respektieren, nicht vor bösartigen Akteuren.

Wie groß dürf Robots.txt maximal sein?

Google empfiehlt, robots.txt unter 500 Kilobytes zu halten. Sehr große robots.txt-Dateien können die Crawl-Effizienz beeinträchtigen. Wenn Ihre robots.txt exzessiv wächst, erwägen Sie, Regeln zu konsolidieren, Gruppierung zu nutzen oder Ihre Seite umzustrukturieren. Die meisten Seiten haben robots.txt-Dateien unter 10KB, sodass Größe selten ein Problem ist.