XML-Sitemap: Suchmaschinen helfen, Ihre Seiten zu entdecken

Über den Autor

Thibault Besson-Magdelain

Gründer von Sorank, +5 Jahre Erfahrung im Bereich SEO, GEO-Enthusiast.

Was eine XML-Sitemap enthält

Das Kernelement ist die URL. Jede Seite, die Sie crawlen lassen möchten, sitzt innerhalb eines <url>-Blocks mit einem <loc>-Tag, das die vollständig qualifizierte, absolute Adresse enthält (den kompletten https://-Pfad, keinen relativen). Die Datei beginnt mit einer <urlset>-Deklaration und muss die UTF-8-Kodierung verwenden.

Über die URL hinaus unterstützt das Protokoll drei optionale Tags: <lastmod>, <changefreq> und <priority>. Der <lastmod>-Wert hält fest, wann sich eine Seite zuletzt in bedeutsamer Weise geändert hat. Das <changefreq>-Tag schlägt vor, wie oft eine Seite aktualisiert wird, und <priority> deutet auf die relative Wichtigkeit hin.

Es ist entscheidend zu wissen, wie Google diese behandelt. Google verwendet <lastmod>, wenn der Wert durchgängig und nachweislich korrekt ist, ignoriert aber <priority> und <changefreq> vollständig. Die Lehre: Verschwenden Sie keine Zeit damit, Prioritätswerte einzustellen. Investieren Sie sie in die Auswahl der richtigen URLs und darin, <lastmod> ehrlich zu halten.

Größenbeschränkungen und Sitemap-Indexdateien

Eine einzelne Sitemap-Datei ist auf 50.000 URLs oder 50MB unkomprimiert begrenzt, je nachdem, was zuerst eintritt. Sie können die Datei mit gzip komprimieren, um Bandbreite zu sparen, doch die unkomprimierte Größe zählt weiterhin gegen die Grenze. Die meisten Websites nähern sich diesen Obergrenzen nie, doch große E-Commerce- und Verlagsseiten tun es.

Wenn Sie eine der Grenzen überschreiten, teilen Sie Ihre URLs auf mehrere Sitemap-Dateien auf und verweisen aus einer einzigen Sitemap-Indexdatei auf sie. Der Index ist selbst eine XML-Datei, die den Speicherort jeder untergeordneten Sitemap auflistet, sodass Sie eine einzige Master-URL einreichen können, während Sie Tausende oder Millionen von Seiten logisch organisieren (zum Beispiel eine Sitemap pro Produktkategorie oder Inhaltstyp).

Sitemaps nach Bereich aufzuteilen, erleichtert auch die Diagnose. Wenn Sie den Sitemaps-Bericht der Google Search Console prüfen, sehen Sie genau, welche Gruppe von Seiten Probleme bei der Entdeckung oder Indexierung hat, statt auf eine einzige riesige, undifferenzierte Liste zu starren.

Welche URLs Sie aufnehmen sollten

Listen Sie nur kanonische, indexierbare Seiten auf, die Sie tatsächlich in den Suchergebnissen haben möchten. Eine Sitemap ist keine Sammelstelle für jede URL, die Ihr CMS erzeugen kann. Schließen Sie doppelte Seiten, paginierte Archive, Parametervarianten, Dankesseiten und alles, was durch eine noindex-Anweisung blockiert ist, aus. Nicht-kanonische URLs aufzunehmen, sendet widersprüchliche Signale und verwässert den Nutzen der Datei.

Ein häufiger Fehler ist, eine Sitemap aus dem Takt mit der aktiven Website geraten zu lassen. Wenn sie URLs auflistet, die nun einen 404 zurückgeben oder weiterleiten, untergraben Sie das Vertrauen, das Crawler in die Datei setzen. Prüfen Sie regelmäßig, sodass jeder Eintrag auf eine aktive, kanonische Seite mit Status 200 auflöst. Diese Disziplin hängt direkt mit dem Crawl-Budget zusammen: Eine schlanke Sitemap richtet Crawler auf das Wesentliche aus und weg von Verschwendung.

Spezialisierte Sitemap-Typen

Über die Standard-Seiten-Sitemap hinaus unterstützt das Protokoll medienspezifische Erweiterungen. Bild- und Video-Sitemaps erlauben es Ihnen, visuelle Inhalte sichtbar zu machen, die Crawler andernfalls übersehen könnten, indem sie Details wie Bildunterschrift, Titel und Dauer liefern. Nachrichtenverlage können eine Google-News-Sitemap verwenden, um zeitkritische Artikel für eine schnellere Erfassung zu kennzeichnen.

Sie benötigen in der Regel nicht jeden Typ. Wenn Ihre Website bildlastig ist oder eine Videobibliothek betreibt, hilft die jeweilige Erweiterung diesen Inhalten, entdeckt zu werden. Für die meisten Inhalts-Websites genügt eine saubere Standard-Sitemap, die Ihre Artikel, Landingpages und wichtigen Ressourcen abdeckt, um starkes Crawling und Indexierung zu unterstützen.

So reichen Sie Ihre Sitemap ein

Es gibt drei Hauptwege, Suchmaschinen auf Ihre Sitemap aufmerksam zu machen. Der direkteste ist die Google Search Console, wo Sie im Sitemaps-Bericht die Datei-URL einreichen und dann im Zeitverlauf verfolgen können, wie viele Seiten entdeckt, gecrawlt und indexiert wurden. Bing bietet dasselbe über die Bing Webmaster Tools.

Die zweite Methode ist, in Ihrer robots.txt-Datei mit einer einzigen Zeile auf die Sitemap zu verweisen: Sitemap: https://example.com/sitemap.xml. Jeder Crawler, der Ihre robots.txt liest, weiß dann, wo er sie findet. Die dritte ist die Search-Console-API für die programmatische Einreichung, nützlich, wenn Sie Sitemaps automatisch neu generieren.

Beachten Sie, dass Google den alten, nicht authentifizierten Ping-Endpunkt eingestellt hat, sodass die veraltete Methode, eine URL anzupingen, nicht mehr funktioniert. Reichen Sie stattdessen über die Search Console oder robots.txt ein. IndexNow ergänzt Sitemaps, indem es sofortige Benachrichtigungen über URL-Änderungen an teilnehmende Engines übermittelt, statt auf den nächsten Crawl zu warten.

XML-Sitemaps und KI-Crawler im Jahr 2026

Sitemaps sind nun für mehr als nur Google von Bedeutung. KI-Engines wie ChatGPT, Perplexity und Gemini setzen eigene Crawler ein (GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot), um die von ihnen zitierten Inhalte zu sammeln und aufzufrischen. Eine aktuelle, korrekte Sitemap hilft diesen Systemen, Ihre Seiten zu entdecken und in KI-generierten Antworten sichtbar zu machen.

Serverprotokolldaten aus dem Jahr 2025 zeigten einen stark steigenden Traffic von KI-Crawlern, wobei einige Bots im Jahresvergleich um mehrere hundert Prozent zulegten. Dieser Traffic konkurriert um dieselben Ressourcen, die der Googlebot nutzt. Eine fokussierte Sitemap, die Crawler auf Ihre besten Inhalte ausrichtet, kombiniert mit korrekten <lastmod>-Daten, hilft jeder Engine, ihren begrenzten Crawl-Aufwand auf die Seiten zu verwenden, die Sie am meisten entdeckt und zitiert sehen möchten.

Häufige Fehler bei XML-Sitemaps

Sich auf priority und changefreq zu versteifen ist der klassische Fehler: Google ignoriert beide, der Aufwand ist also vergeudet. Andere häufige Probleme sind das Auflisten nicht-kanonischer oder weitergeleiteter URLs, das Belassen von 404-Seiten in der Datei, das Vergessen, <lastmod> zu aktualisieren, wenn sich der Inhalt tatsächlich ändert, und das Überschreiten der Grenze von 50.000 URLs ohne Aufteilung in einen Index.

Ein weiteres subtiles Problem ist das Fälschen von <lastmod>-Daten. Wenn Sie bei jeder Neugenerierung jede URL mit dem heutigen Datum stempeln, wird das Signal bedeutungslos, und Google lernt, ihm zu misstrauen. Aktualisieren Sie das Datum nur, wenn sich der Seiteninhalt wirklich ändert. Genauigkeit ist es, was das Tag für die Priorisierung von Recrawls wertvoll macht.

Ihre Sitemap überwachen und pflegen

Behandeln Sie Ihre Sitemap als lebende Datei, nicht als einmalige Einrichtung. Prüfen Sie den Sitemaps-Bericht der Search Console monatlich, um zu bestätigen, dass die Datei gelesen wird, die Lücke zwischen entdeckt und indexiert zu sehen und Parsing-Fehler früh zu erkennen. Eine wachsende Lücke zwischen eingereichten und indexierten URLs deutet oft auf Probleme mit der Inhaltsqualität oder Duplicate Content hin, nicht auf einen Fehler der Sitemap.

Die meisten modernen Inhaltsplattformen generieren und aktualisieren Sitemaps automatisch, was sie frisch hält, während Sie veröffentlichen. Wenn Sie eine manuell verwalten, bauen Sie einen Neugenerierungsschritt in Ihren Veröffentlichungsablauf ein, sodass neue Seiten schnell erscheinen und entfernte Seiten verschwinden. Kombinieren Sie das mit einem regelmäßigen technischen Audit, um die Crawl-Signale über die gesamte Website hinweg sauber zu halten.

Fazit

Eine XML-Sitemap ist eine einfache, hochwirksame Datei, die die kanonischen URLs auflistet, die Suchmaschinen und KI-Crawler finden sollen. Sie erzwingt keine Indexierung, beschleunigt aber die Entdeckung, besonders bei großen, neuen oder häufig aktualisierten Websites. Beschränken Sie sie auf indexierbare kanonische Seiten, beachten Sie die Grenzen von 50.000 URLs und 50MB mit Indexdateien, pflegen Sie ehrliche <lastmod>-Daten und ignorieren Sie priority und changefreq, da Google es ebenso tut. Reichen Sie über die Search Console ein und verweisen Sie in der robots.txt darauf, und überwachen Sie dann monatlich die Lücke zwischen entdeckt und indexiert. Im Jahr 2026 hilft eine saubere Sitemap jeder Engine, von Google bis ChatGPT, ihren Crawl-Aufwand auf die Seiten zu verwenden, die am wichtigsten sind. Sehen Sie, wie das GEO-SEO-Audit von Sorank Ihre Sitemap und Crawl-Gesundheit automatisch prüft.

Häufig gestellte Fragen

Garantiert eine XML-Sitemap, dass meine Seiten indexiert werden?

Nein. Eine Sitemap hilft Suchmaschinen, Ihre URLs schneller zu entdecken, erzwingt aber keine Indexierung. Google entscheidet weiterhin anhand von Inhaltsqualität, Duplizierung und Relevanz, ob jede Seite es wert ist, indexiert zu werden. Betrachten Sie eine Sitemap als starkes Signal zur Entdeckung, nicht als Befehl. Wenn Seiten im Zustand entdeckt, aber nicht indexiert verbleiben, liegt das Problem meist an der Inhaltsqualität oder an Duplicate Content, nicht an der Sitemap selbst.

Wie viele URLs kann eine XML-Sitemap enthalten?

Eine einzelne Sitemap-Datei ist auf 50.000 URLs oder 50MB unkomprimiert begrenzt, je nachdem, was zuerst eintritt. Wenn Ihre Website mehr Seiten hat, teilen Sie sie auf mehrere Sitemap-Dateien auf und listen diese Dateien in einer Sitemap-Indexdatei auf. Sie reichen dann nur die Index-URL ein. Die meisten Websites erreichen diese Grenzen nie, doch große E-Commerce- und Verlagsseiten organisieren ihre Seiten auf diese Weise, um die Überwachung zu erleichtern.

Sollte ich priority- und changefreq-Werte in meiner Sitemap setzen?

Es gibt keinen Nutzen, denn Google ignoriert sowohl das priority- als auch das changefreq-Tag. Das einzige optionale Tag, das Google verwendet, ist lastmod, und nur, wenn das Datum durchgängig und nachweislich korrekt ist. Konzentrieren Sie Ihren Aufwand darauf, die richtigen kanonischen URLs aufzulisten und lastmod ehrlich zu halten, indem Sie es nur aktualisieren, wenn sich eine Seite wirklich ändert. Daten bei jeder Neugenerierung zu fälschen, lehrt Google, dem Wert gänzlich zu misstrauen.