Il crawl budget è il numero di pagine che un motore di ricerca scansionerà sul tuo sito in un dato periodo. Scopri come funziona, chi ne ha bisogno e come ottimizzarlo nel 2026.

Il crawl budget descrive quanta attenzione di scansione un motore di ricerca destina al tuo sito web. Googlebot non scansiona ogni pagina di internet in modo uguale o costante; fa scelte economiche su dove spendere le sue risorse finite. Il crawl budget è il risultato pratico di quelle scelte per il tuo dominio specifico: l'insieme di URL che Google può recuperare e vuole recuperare in una finestra di tempo.
Google non pubblica un numero per il tuo crawl budget né ti permette di impostarne uno manualmente. Invece, la documentazione di Google sul crawl budget spiega che esso emerge da due fattori sottostanti. Comprendere quei fattori è la chiave per influenzare quanto a fondo e con quale frequenza le tue pagine vengono scansionate, soprattutto perché nel 2026 i crawler di intelligenza artificiale aggiungono nuova pressione sulle risorse del server.
Il limite di capacità di scansione è il numero massimo di connessioni simultanee che Googlebot userà per scansionare il tuo sito, più il ritardo tra i recuperi. È regolato dalla salute del tuo server. Se il tuo sito risponde rapidamente e senza errori, Google alza il limite e scansiona in modo più aggressivo. Se il tuo server rallenta o restituisce errori 5xx, Google si ritira per evitare di sovraccaricarti.
La domanda di scansione è quanto Google vuole scansionare le tue pagine in primo luogo. Cresce con la popolarità (URL che attirano traffico e link), l'inventario percepito (quante pagine utili Google pensa tu abbia) e l'obsolescenza (pagine che Google ritiene debbano essere aggiornate). Un sito grande, aggiornato di frequente e autorevole genera un'alta domanda di scansione; un sito piccolo e statico genera una domanda bassa.
Il tuo crawl budget effettivo è il punto d'incontro di questi due. Un'alta capacità con una domanda bassa significa comunque una scansione leggera, e un'alta domanda frenata da un server lento significa pagine mancate. Entrambe le leve contano, e interagiscono con la tua impronta complessiva di scansione.
La maggior parte dei siti web non ha bisogno di pensare affatto al crawl budget. Se hai qualche centinaio o qualche migliaio di pagine e il tuo server è ragionevolmente veloce, Google scansionerà tutto ciò che è importante senza difficoltà. Spendere energie nell'ottimizzazione del crawl budget per un sito piccolo è di solito uno sforzo sprecato.
Google indirizza esplicitamente le sue linee guida a tre gruppi: i siti grandi con un milione o più di pagine uniche che cambiano almeno settimanalmente, i siti da medi a grandi con 10.000 o più pagine uniche che cambiano quotidianamente, e qualsiasi sito in cui una grande parte degli URL risulti come Scoperto ma attualmente non indicizzato in Search Console. Se rientri in una di queste categorie, il crawl budget diventa un vincolo reale che controlla direttamente quali pagine vengono indicizzate e quanto restano fresche.
Il segnale più chiaro si trova in Google Search Console. Apri il report Statistiche di scansione per vedere quante richieste fa Googlebot al giorno, il tempo medio di risposta e gli eventuali errori di disponibilità. Un alto numero di richieste spese su URL di basso valore, o tempi di risposta in aumento, indica inefficienza.
Tieni d'occhio il report Pagine per lo stato Scoperto ma attualmente non indicizzato. Quando Google ha trovato un URL ma non l'ha scansionato, le tue pagine importanti potrebbero essere in attesa dietro una coda di pagine inutili. L'analisi dei log del server è il metodo più preciso: mostra esattamente quali URL Googlebot recupera e con quale frequenza, rivelando dove va davvero il tuo budget rispetto a dove vorresti che andasse.
Le perdite maggiori sono prevedibili. La navigazione a faccette e i parametri degli URL possono generare combinazioni quasi infinite di pagine filtrate e ordinate, ognuna un URL unico che Googlebot potrebbe provare a scansionare. Gli ID di sessione negli URL creano la stessa esplosione di duplicati. Ognuno di questi recuperi sprecati è un recupero non speso su una pagina reale.
Altri sprechi comuni includono lunghe catene di redirect, pagine soft 404 che restituiscono uno stato 200 per contenuti mancanti, contenuto duplicato su più URL, pagine a scorrimento infinito o calendari che generano link senza fine, e sitemap obsolete che puntano a URL morti. Ognuno di questi consuma capacità di scansione che dovrebbe andare verso il tuo prodotto, articolo o pagina di destinazione più recente e verso una migliore indicizzazione delle pagine a cui tieni.
Inizia bloccando ciò che Google non dovrebbe scansionare. Usa il tuo file robots.txt per impedire l'accesso ai parametri a faccette, ai risultati della ricerca interna e ad altri schemi di URL di basso valore. Google osserva che robots.txt, non noindex, è lo strumento giusto qui: una pagina con noindex deve comunque essere scansionata per essere letta, il che spende budget, mentre un percorso vietato viene saltato.
Poi, sistema i tuoi codici di stato. Restituisci un 404 o 410 per le pagine che hai rimosso definitivamente, così che Google smetta di richiederle. Consolida il contenuto duplicato dietro i tag canonical, ed elimina le catene di redirect puntando i link direttamente all'URL finale. Ogni correzione recupera recuperi per le pagine che li meritano.
Infine, mantieni accurata la tua sitemap XML con date lastmod oneste, e migliora la velocità del server affinché Google alzi il tuo limite di capacità di scansione. Un sito più veloce è un sito scansionato più a fondo, a parità di altre condizioni.
Googlebot non è più l'unico crawler che compete per l'attenzione del tuo server. I motori di intelligenza artificiale schierano i propri bot, tra cui GPTBot e OAI-SearchBot di OpenAI, ClaudeBot di Anthropic e PerplexityBot, per raccogliere e aggiornare i contenuti che citano nelle risposte. Questi crawler consumano banda e cicli del server reali.
I dati dei server del 2025 hanno mostrato un'impennata del traffico dei crawler di intelligenza artificiale e di ricerca, con diversi bot cresciuti di centinaia di percento anno su anno. L'effetto pratico è che lo stesso lavoro di salute e di efficienza del sito che protegge il tuo crawl budget di Google protegge anche le prestazioni per i crawler di intelligenza artificiale. Un server veloce e una struttura di URL pulita aiutano ogni bot, da Googlebot ai motori che alimentano la ricerca con intelligenza artificiale, a spendere la loro limitata scansione su pagine che vale la pena recuperare.
La scansione e l'indicizzazione sono passaggi distinti, e confonderli porta a sforzi sprecati. Il crawl budget regola se e con quale frequenza Google recupera un URL. L'indicizzazione è la decisione separata sul fatto che una pagina scansionata valga la pena di essere memorizzata e servita nei risultati. Una pagina può essere scansionata e poi deliberatamente lasciata non indicizzata perché Google l'ha giudicata di basso valore.
Questo è importante per la diagnosi. Se una pagina è Scoperta ma non scansionata, si tratta di un problema di crawl budget o di scoperta, e si applicano le correzioni di cui sopra. Se una pagina è Scansionata ma non indicizzata, il problema è di solito la qualità dei contenuti, il contenuto povero o la duplicazione, e nessuna ottimizzazione della scansione lo risolverà. Identifica quale fase sta fallendo prima di agire.
Il crawl budget è il numero di URL che un motore di ricerca può e vuole scansionare sul tuo sito in un dato periodo, stabilito dal limite di capacità di scansione (la salute del tuo server) e dalla domanda di scansione (la tua popolarità, il tuo inventario e la tua freschezza). È una preoccupazione concreta per i siti grandi con 10.000 o più pagine e per qualsiasi sito con molti URL Scoperti ma non indicizzati, e in gran parte un non problema per quelli piccoli. Per ottimizzarlo, blocca gli URL di basso valore con robots.txt, correggi i codici di stato e le catene di redirect, elimina i duplicati, mantieni accurata la tua sitemap e velocizza il tuo server. Nel 2026, la stessa igiene mantiene efficienti anche i crawler di intelligenza artificiale. Esegui un audit GEO SEO di Sorank per trovare lo spreco di scansione che danneggia la tua indicizzazione.
Non esiste un numero target unico, e Google non lo pubblica né ti permette di impostarne uno. Il crawl budget è il risultato pratico della salute del tuo server e di quanto Google vuole le tue pagine. Per la maggior parte dei siti piccoli e medi, Google scansiona tutto ciò che è importante senza alcun intervento, quindi non c'è un numero da inseguire. Il crawl budget diventa un fattore reale solo a decine di migliaia di URL o quando molte pagine risultano come Scoperte ma attualmente non indicizzate.
Lo influenzi attraverso i due fattori che Google usa. Aumenta la capacità di scansione rendendo il tuo server veloce e affidabile, dato che Google scansiona di più quando le risposte sono rapide e prive di errori. Aumenta la domanda di scansione pubblicando contenuti utili che guadagnano link e traffico, e aggiornando le pagine così che Google le veda come degne di essere aggiornate. Altrettanto importante, smetti di sprecare il budget che hai bloccando gli URL di basso valore e correggendo i duplicati, il che libera recuperi per le pagine che contano.
No, sono fasi separate. Il crawl budget controlla se e con quale frequenza Google recupera un URL, mentre l'indicizzazione è la decisione successiva sul fatto di memorizzare e servire quella pagina nei risultati di ricerca. Una pagina può essere scansionata e poi lasciata non indicizzata perché Google l'ha giudicata di basso valore. Questa distinzione è importante per la diagnosi: una pagina Scoperta ma non scansionata è un problema di scansione, mentre una pagina Scansionata ma non indicizzata è di solito un problema di qualità dei contenuti.