Una sitemap XML elenca gli URL del tuo sito affinché motori di ricerca e crawler di intelligenza artificiale li trovino e li indicizzino più velocemente. Scopri il formato, i limiti e le buone pratiche del 2026.

Una sitemap XML (sitemap in Extensible Markup Language) è un file strutturato che indica ai motori di ricerca quali pagine esistono sul tuo sito web e quali vuoi che trovino. Ogni voce contiene un URL e metadati facoltativi, racchiusi in tag che le macchine analizzano istantaneamente. Invece di affidarsi ai crawler perché seguano ogni link interno, una sitemap consegna loro un elenco pulito e prioritizzato delle tue pagine canoniche.
Sebbene una sitemap non garantisca l'indicizzazione, è uno dei segnali più affidabili che puoi inviare sulla struttura del tuo sito. La documentazione di Google sulle sitemap ne raccomanda una per i siti grandi, nuovi, con pochi link esterni o che contengono media ricchi. Nel 2026, con i crawler di intelligenza artificiale di OpenAI, Anthropic e Perplexity che competono per le stesse risorse del server di Googlebot, una sitemap pulita è più preziosa che mai.
L'elemento principale è l'URL. Ogni pagina che vuoi far scansionare si trova all'interno di un blocco <url> con un tag <loc> che contiene l'indirizzo completo e assoluto (l'intero percorso https://, non uno relativo). Il file si apre con una dichiarazione <urlset> e deve usare la codifica UTF-8.
Oltre all'URL, il protocollo supporta tre tag facoltativi: <lastmod>, <changefreq> e <priority>. Il valore <lastmod> registra quando una pagina è cambiata l'ultima volta in modo significativo. Il tag <changefreq> suggerisce con quale frequenza una pagina si aggiorna, e <priority> indica l'importanza relativa.
È fondamentale sapere come Google tratta questi tag. Google usa <lastmod> se il valore è costantemente e verificabilmente accurato, ma ignora del tutto <priority> e <changefreq>. La lezione: non perdere tempo a regolare i punteggi di priorità. Spendilo nello scegliere gli URL giusti e nel mantenere onesto il <lastmod>.
Un singolo file sitemap è limitato a 50.000 URL o 50MB non compressi, a seconda di quale limite venga raggiunto per primo. Puoi comprimere il file con gzip per risparmiare banda, ma la dimensione non compressa conta comunque ai fini del limite. La maggior parte dei siti web non si avvicina mai a questi tetti, ma i grandi siti di ecommerce e di editoria sì.
Quando superi uno dei due limiti, suddividi i tuoi URL su più file sitemap e li referenzi da un unico file indice della sitemap. L'indice è a sua volta un file XML che elenca la posizione di ogni sitemap figlia, consentendoti di inviare un unico URL principale organizzando logicamente migliaia o milioni di pagine (ad esempio, una sitemap per categoria di prodotto o per tipo di contenuto).
Suddividere le sitemap per sezione rende anche più facile la diagnostica. Quando controlli il report Sitemap di Google Search Console, puoi vedere esattamente quale gruppo di pagine ha problemi di scoperta o di indicizzazione, invece di fissare un unico, enorme elenco indifferenziato.
Elenca solo le pagine canoniche e indicizzabili che vuoi davvero nei risultati di ricerca. Una sitemap non è uno scarico di ogni URL che il tuo CMS può generare. Escludi le pagine duplicate, gli archivi paginati, le variazioni con parametri, le pagine di ringraziamento e tutto ciò che è bloccato da una direttiva noindex. Includere URL non canonici manda segnali contrastanti e diluisce l'utilità del file.
Un errore comune è lasciare che una sitemap vada fuori sincronia con il sito attivo. Se elenca URL che ora restituiscono un 404 o reindirizzano, erodi la fiducia che i crawler ripongono nel file. Verifica regolarmente, così che ogni voce si risolva in una pagina attiva, canonica e con stato 200. Questa disciplina si lega direttamente al crawl budget: una sitemap snella punta i crawler verso ciò che conta e lontano dallo spreco.
Oltre alla sitemap standard delle pagine, il protocollo supporta estensioni specifiche per i media. Le sitemap di immagini e video ti permettono di far emergere contenuti visivi che i crawler potrebbero altrimenti perdere, fornendo dettagli come didascalia, titolo e durata. Gli editori di notizie possono usare una sitemap Google News per segnalare gli articoli sensibili al tempo per un'acquisizione più rapida.
In generale non hai bisogno di ogni tipo. Se il tuo sito è ricco di immagini o gestisce una videoteca, l'estensione pertinente aiuta a far scoprire quegli asset. Per la maggior parte dei siti di contenuti, una sitemap standard pulita che copra i tuoi articoli, le pagine di destinazione e le risorse chiave è sufficiente a sostenere una solida scansione e indicizzazione.
Ci sono tre modi principali per rendere i motori di ricerca consapevoli della tua sitemap. Il più diretto è Google Search Console, dove il report Sitemap ti permette di inviare l'URL del file e poi monitorare nel tempo quante pagine sono state scoperte, scansionate e indicizzate. Bing offre lo stesso tramite Bing Webmaster Tools.
Il secondo metodo è referenziare la sitemap all'interno del tuo file robots.txt con una singola riga: Sitemap: https://example.com/sitemap.xml. Qualsiasi crawler che legga il tuo robots.txt sa quindi dove trovarla. Il terzo è la Search Console API per l'invio programmatico, utile quando rigeneri le sitemap automaticamente.
Nota che Google ha deprecato il vecchio endpoint ping non autenticato, quindi il metodo legacy di inviare un ping a un URL non funziona più. Invia tramite Search Console o robots.txt. IndexNow completa le sitemap inviando notifiche istantanee di modifica degli URL ai motori partecipanti, anziché attendere la scansione successiva.
Le sitemap ora contano per qualcosa di più di Google. I motori di intelligenza artificiale come ChatGPT, Perplexity e Gemini schierano i propri crawler (GPTBot, OAI-SearchBot, PerplexityBot, ClaudeBot) per raccogliere e aggiornare i contenuti che citano. Una sitemap attuale e accurata aiuta questi sistemi a scoprire le tue pagine e a farle emergere nelle risposte generate dall'intelligenza artificiale.
I dati dei log dei server del 2025 hanno mostrato un forte aumento del traffico dei crawler di intelligenza artificiale, con alcuni bot cresciuti di diverse centinaia di percento anno su anno. Quel traffico compete per le stesse risorse che usa Googlebot. Una sitemap mirata che punta i crawler verso i tuoi contenuti migliori, abbinata a date <lastmod> accurate, aiuta ogni motore a spendere il suo limitato sforzo di scansione sulle pagine che vuoi di più far scoprire e citare.
Ossessionarsi con priority e changefreq è l'errore classico: Google li ignora entrambi, quindi lo sforzo è sprecato. Altri problemi frequenti includono elencare URL non canonici o reindirizzati, lasciare 404 nel file, dimenticare di aggiornare <lastmod> quando il contenuto cambia davvero, e superare il limite di 50.000 URL senza suddividere in un indice.
Un altro problema sottile è falsificare le date <lastmod>. Se marchi ogni URL con la data di oggi a ogni rigenerazione, il segnale diventa privo di significato e Google impara a diffidarne. Aggiorna la data solo quando il contenuto della pagina cambia davvero. L'accuratezza è ciò che rende il tag prezioso per dare priorità alle riscansioni.
Tratta la tua sitemap come un file vivo, non come una configurazione una tantum. Controlla il report Sitemap di Search Console ogni mese per confermare che il file venga letto, vedere il divario tra pagine scoperte e indicizzate e individuare presto gli errori di analisi. Un divario crescente tra URL inviati e indicizzati spesso indica problemi di qualità dei contenuti o di contenuto duplicato, non un difetto della sitemap.
La maggior parte delle piattaforme di contenuti moderne genera e aggiorna le sitemap automaticamente, il che le mantiene fresche man mano che pubblichi. Se ne gestisci una manualmente, integra un passaggio di rigenerazione nel tuo flusso di pubblicazione, così che le nuove pagine compaiano rapidamente e quelle rimosse scompaiano. Abbina questo a un audit tecnico regolare per mantenere puliti i segnali di scansione su tutto il sito.
Una sitemap XML è un file semplice e ad alta leva che elenca gli URL canonici che vuoi far trovare a motori di ricerca e crawler di intelligenza artificiale. Non forza l'indicizzazione, ma accelera la scoperta, soprattutto sui siti grandi, nuovi o aggiornati di frequente. Mantienila limitata alle pagine canoniche indicizzabili, rispetta i limiti di 50.000 URL e 50MB con i file indice, mantieni date <lastmod> oneste e ignora priority e changefreq, dato che lo fa anche Google. Invia tramite Search Console e referenziala in robots.txt, poi monitora ogni mese il divario tra pagine scoperte e indicizzate. Nel 2026, una sitemap pulita aiuta ogni motore, da Google a ChatGPT, a spendere il suo sforzo di scansione sulle pagine che contano di più. Scopri come l'audit GEO SEO di Sorank verifica automaticamente la tua sitemap e la salute della scansione.
No. Una sitemap aiuta i motori di ricerca a scoprire più velocemente i tuoi URL, ma non forza l'indicizzazione. Google decide comunque se ogni pagina valga la pena di essere indicizzata in base a qualità dei contenuti, duplicazione e pertinenza. Pensa a una sitemap come a un forte segnale di scoperta, non a un comando. Se le pagine restano nello stato scoperte ma non indicizzate, il problema è di solito la qualità dei contenuti o il contenuto duplicato, non la sitemap stessa.
Un singolo file sitemap è limitato a 50.000 URL o 50MB non compressi, a seconda di quale limite venga raggiunto per primo. Se il tuo sito ha più pagine, le suddividi su più file sitemap ed elenchi quei file in un file indice della sitemap. Poi invii solo l'URL dell'indice. La maggior parte dei siti non raggiunge mai questi limiti, ma i grandi siti di ecommerce e di editoria organizzano le loro pagine in questo modo per un monitoraggio più facile.
Non c'è alcun vantaggio, perché Google ignora sia il tag priority sia il tag changefreq. L'unico tag facoltativo che Google usa è lastmod, e solo se la data è costantemente e verificabilmente accurata. Concentra il tuo sforzo nell'elencare gli URL canonici giusti e nel mantenere onesto il lastmod, aggiornandolo solo quando una pagina cambia davvero. Falsificare le date a ogni rigenerazione insegna a Google a diffidare del tutto del valore.