Crawl budget: con quale frequenza i motori di ricerca visitano il tuo sito

Chi è l'autore

Thibault Besson-Magdelain

Fondatore di Sorank, 5+ anni di esperienza in SEO, appassionato di GEO.

Leggi altri articoli

Riassumere con

ChatGPT Perplexity

Share on

Riepilogo: Il crawl budget è il numero di URL che un motore di ricerca può e vuole scansionare sul tuo sito entro un dato periodo. Google lo stabilisce a partire da due fattori, il limite di capacità di scansione e la domanda di scansione, ed è importante soprattutto per i siti grandi o aggiornati di frequente.

Il crawl budget descrive quanta attenzione di scansione un motore di ricerca destina al tuo sito web. Googlebot non scansiona ogni pagina di internet in modo uguale o costante; fa scelte economiche su dove spendere le sue risorse finite. Il crawl budget è il risultato pratico di quelle scelte per il tuo dominio specifico: l'insieme di URL che Google può recuperare e vuole recuperare in una finestra di tempo.

Google non pubblica un numero per il tuo crawl budget né ti permette di impostarne uno manualmente. Invece, la documentazione di Google sul crawl budget spiega che esso emerge da due fattori sottostanti. Comprendere quei fattori è la chiave per influenzare quanto a fondo e con quale frequenza le tue pagine vengono scansionate, soprattutto perché nel 2026 i crawler di intelligenza artificiale aggiungono nuova pressione sulle risorse del server.

I due fattori: capacità di scansione e domanda di scansione

Il limite di capacità di scansione è il numero massimo di connessioni simultanee che Googlebot userà per scansionare il tuo sito, più il ritardo tra i recuperi. È regolato dalla salute del tuo server. Se il tuo sito risponde rapidamente e senza errori, Google alza il limite e scansiona in modo più aggressivo. Se il tuo server rallenta o restituisce errori 5xx, Google si ritira per evitare di sovraccaricarti.

La domanda di scansione è quanto Google vuole scansionare le tue pagine in primo luogo. Cresce con la popolarità (URL che attirano traffico e link), l'inventario percepito (quante pagine utili Google pensa tu abbia) e l'obsolescenza (pagine che Google ritiene debbano essere aggiornate). Un sito grande, aggiornato di frequente e autorevole genera un'alta domanda di scansione; un sito piccolo e statico genera una domanda bassa.

Il tuo crawl budget effettivo è il punto d'incontro di questi due. Un'alta capacità con una domanda bassa significa comunque una scansione leggera, e un'alta domanda frenata da un server lento significa pagine mancate. Entrambe le leve contano, e interagiscono con la tua impronta complessiva di scansione.

Chi deve davvero preoccuparsi del crawl budget

La maggior parte dei siti web non ha bisogno di pensare affatto al crawl budget. Se hai qualche centinaio o qualche migliaio di pagine e il tuo server è ragionevolmente veloce, Google scansionerà tutto ciò che è importante senza difficoltà. Spendere energie nell'ottimizzazione del crawl budget per un sito piccolo è di solito uno sforzo sprecato.

Google indirizza esplicitamente le sue linee guida a tre gruppi: i siti grandi con un milione o più di pagine uniche che cambiano almeno settimanalmente, i siti da medi a grandi con 10.000 o più pagine uniche che cambiano quotidianamente, e qualsiasi sito in cui una grande parte degli URL risulti come Scoperto ma attualmente non indicizzato in Search Console. Se rientri in una di queste categorie, il crawl budget diventa un vincolo reale che controlla direttamente quali pagine vengono indicizzate e quanto restano fresche.

Come capire se il crawl budget è un problema

Il segnale più chiaro si trova in Google Search Console. Apri il report Statistiche di scansione per vedere quante richieste fa Googlebot al giorno, il tempo medio di risposta e gli eventuali errori di disponibilità. Un alto numero di richieste spese su URL di basso valore, o tempi di risposta in aumento, indica inefficienza.

Tieni d'occhio il report Pagine per lo stato Scoperto ma attualmente non indicizzato. Quando Google ha trovato un URL ma non l'ha scansionato, le tue pagine importanti potrebbero essere in attesa dietro una coda di pagine inutili. L'analisi dei log del server è il metodo più preciso: mostra esattamente quali URL Googlebot recupera e con quale frequenza, rivelando dove va davvero il tuo budget rispetto a dove vorresti che andasse.

Cosa spreca il crawl budget

Le perdite maggiori sono prevedibili. La navigazione a faccette e i parametri degli URL possono generare combinazioni quasi infinite di pagine filtrate e ordinate, ognuna un URL unico che Googlebot potrebbe provare a scansionare. Gli ID di sessione negli URL creano la stessa esplosione di duplicati. Ognuno di questi recuperi sprecati è un recupero non speso su una pagina reale.

Altri sprechi comuni includono lunghe catene di redirect, pagine soft 404 che restituiscono uno stato 200 per contenuti mancanti, contenuto duplicato su più URL, pagine a scorrimento infinito o calendari che generano link senza fine, e sitemap obsolete che puntano a URL morti. Ognuno di questi consuma capacità di scansione che dovrebbe andare verso il tuo prodotto, articolo o pagina di destinazione più recente e verso una migliore indicizzazione delle pagine a cui tieni.

Come ottimizzare il crawl budget

Inizia bloccando ciò che Google non dovrebbe scansionare. Usa il tuo file robots.txt per impedire l'accesso ai parametri a faccette, ai risultati della ricerca interna e ad altri schemi di URL di basso valore. Google osserva che robots.txt, non noindex, è lo strumento giusto qui: una pagina con noindex deve comunque essere scansionata per essere letta, il che spende budget, mentre un percorso vietato viene saltato.

Poi, sistema i tuoi codici di stato. Restituisci un 404 o 410 per le pagine che hai rimosso definitivamente, così che Google smetta di richiederle. Consolida il contenuto duplicato dietro i tag canonical, ed elimina le catene di redirect puntando i link direttamente all'URL finale. Ogni correzione recupera recuperi per le pagine che li meritano.

Infine, mantieni accurata la tua sitemap XML con date lastmod oneste, e migliora la velocità del server affinché Google alzi il tuo limite di capacità di scansione. Un sito più veloce è un sito scansionato più a fondo, a parità di altre condizioni.

Crawl budget e crawler di intelligenza artificiale nel 2026

Googlebot non è più l'unico crawler che compete per l'attenzione del tuo server. I motori di intelligenza artificiale schierano i propri bot, tra cui GPTBot e OAI-SearchBot di OpenAI, ClaudeBot di Anthropic e PerplexityBot, per raccogliere e aggiornare i contenuti che citano nelle risposte. Questi crawler consumano banda e cicli del server reali.

I dati dei server del 2025 hanno mostrato un'impennata del traffico dei crawler di intelligenza artificiale e di ricerca, con diversi bot cresciuti di centinaia di percento anno su anno. L'effetto pratico è che lo stesso lavoro di salute e di efficienza del sito che protegge il tuo crawl budget di Google protegge anche le prestazioni per i crawler di intelligenza artificiale. Un server veloce e una struttura di URL pulita aiutano ogni bot, da Googlebot ai motori che alimentano la ricerca con intelligenza artificiale, a spendere la loro limitata scansione su pagine che vale la pena recuperare.

Crawl budget vs. indicizzazione: una confusione comune

La scansione e l'indicizzazione sono passaggi distinti, e confonderli porta a sforzi sprecati. Il crawl budget regola se e con quale frequenza Google recupera un URL. L'indicizzazione è la decisione separata sul fatto che una pagina scansionata valga la pena di essere memorizzata e servita nei risultati. Una pagina può essere scansionata e poi deliberatamente lasciata non indicizzata perché Google l'ha giudicata di basso valore.

Questo è importante per la diagnosi. Se una pagina è Scoperta ma non scansionata, si tratta di un problema di crawl budget o di scoperta, e si applicano le correzioni di cui sopra. Se una pagina è Scansionata ma non indicizzata, il problema è di solito la qualità dei contenuti, il contenuto povero o la duplicazione, e nessuna ottimizzazione della scansione lo risolverà. Identifica quale fase sta fallendo prima di agire.

Conclusione

Il crawl budget è il numero di URL che un motore di ricerca può e vuole scansionare sul tuo sito in un dato periodo, stabilito dal limite di capacità di scansione (la salute del tuo server) e dalla domanda di scansione (la tua popolarità, il tuo inventario e la tua freschezza). È una preoccupazione concreta per i siti grandi con 10.000 o più pagine e per qualsiasi sito con molti URL Scoperti ma non indicizzati, e in gran parte un non problema per quelli piccoli. Per ottimizzarlo, blocca gli URL di basso valore con robots.txt, correggi i codici di stato e le catene di redirect, elimina i duplicati, mantieni accurata la tua sitemap e velocizza il tuo server. Nel 2026, la stessa igiene mantiene efficienti anche i crawler di intelligenza artificiale. Esegui un audit GEO SEO di Sorank per trovare lo spreco di scansione che danneggia la tua indicizzazione.

Frequently questions asked

Qual è un buon crawl budget per il mio sito web?

Non esiste un numero target unico, e Google non lo pubblica né ti permette di impostarne uno. Il crawl budget è il risultato pratico della salute del tuo server e di quanto Google vuole le tue pagine. Per la maggior parte dei siti piccoli e medi, Google scansiona tutto ciò che è importante senza alcun intervento, quindi non c'è un numero da inseguire. Il crawl budget diventa un fattore reale solo a decine di migliaia di URL o quando molte pagine risultano come Scoperte ma attualmente non indicizzate.

Come faccio ad aumentare il mio crawl budget?

Lo influenzi attraverso i due fattori che Google usa. Aumenta la capacità di scansione rendendo il tuo server veloce e affidabile, dato che Google scansiona di più quando le risposte sono rapide e prive di errori. Aumenta la domanda di scansione pubblicando contenuti utili che guadagnano link e traffico, e aggiornando le pagine così che Google le veda come degne di essere aggiornate. Altrettanto importante, smetti di sprecare il budget che hai bloccando gli URL di basso valore e correggendo i duplicati, il che libera recuperi per le pagine che contano.

Il crawl budget è la stessa cosa dell'indicizzazione?

No, sono fasi separate. Il crawl budget controlla se e con quale frequenza Google recupera un URL, mentre l'indicizzazione è la decisione successiva sul fatto di memorizzare e servire quella pagina nei risultati di ricerca. Una pagina può essere scansionata e poi lasciata non indicizzata perché Google l'ha giudicata di basso valore. Questa distinzione è importante per la diagnosi: una pagina Scoperta ma non scansionata è un problema di scansione, mentre una pagina Scansionata ma non indicizzata è di solito un problema di qualità dei contenuti.