Robots.txt: La Guida Completa con Esempi

Chi è l'autore

Thibault Besson-Magdelain

Fondatore di Sorank, 5+ anni di esperienza in SEO, appassionato di GEO.

Leggi altri articoli

Riassumere con

ChatGPT Perplexity

Share on

Riepilogo: Robots.txt è un file di testo nella root del tuo sito che dice ai motori di ricerca quali parti del tuo sito sottoporre a crawl e quali saltare, aiutando a gestire il crawl budget e prevenire l'indicizzazione di pagine private.

Robots.txt è un file semplice ma potente che controlla come i motori di ricerca fanno crawl del tuo sito web. Si trova a https://example.com/robots.txt e contiene regole che specificano quali pagine e directory Google, Bing, e altri bot possono sottoporre a crawl. Robots.txt ti aiuta a gestire il crawl budget (il numero di pagine che Google sottopone a crawl quotidianamente), previene di sprecare crawl su pagine non importanti, e mantiene il contenuto privato fuori dai risultati di ricerca.

La maggior parte dei siti ha un file robots.txt, ma molti sono mal configurati. Un robots.txt mal configurato può accidentalmente bloccare pagine importanti, sprecando il potenziale di ranking. Un robots.txt ben configurato migliora l'efficienza del crawl e protegge la privacy del tuo sito. Questa guida copre la sintassi robots.txt, le best practice, e gli esempi del mondo reale.

Cos'è Robots.txt e Come lo Usano i Motori di Ricerca

Robots.txt è un file di testo standardizzato che comunica istruzioni di crawl ai bot dei motori di ricerca. Quando un bot visita per la prima volta il tuo sito, richiede /robots.txt prima di sottoporre a crawl qualsiasi cosa. Il robot legge le regole e le segue (supponendo che il bot sia ben comportato).

La documentazione robots.txt di Google è il riferimento autorevole per lo standard. Il formato robots.txt è stato creato nel 1994 ed è stato ampiamente adottato. Tutti i principali motori di ricerca (Google, Bing, Baidu) rispettano robots.txt.

Importante: Robots.txt è una linea guida, non un firewall. I bot ben comportati (Google, Bing) rispettano le regole robots.txt. I bot malintenzionati e gli scraper ignorano robots.txt. Usa robots.txt per gestire il crawling dei motori di ricerca, non per bloccare hacker o scraper. Per la sicurezza, usa strumenti a livello di server.

Sintassi Robots.txt e Regole Base

Robots.txt usa semplice sintassi di testo. Ogni regola ha due parti: un User-agent (quale bot la regola si applica a) e percorsi Disallow (quali pagine bloccare).

Esempio di base:

User-agent: * Disallow: /admin/ Disallow: /staging/ Sitemap: https://example.com/sitemap.xml

Questo dice a tutti i bot (* significa tutti) di non sottoporre a crawl le directory /admin/ e /staging/. La riga Sitemap dice ai bot dove si trova la tua sitemap.

User-agent: \* significa tutti i bot. Puoi anche specificare bot individuali:

User-agent: Googlebot si applica solo al bot di Google. User-agent: Bingbot si applica solo al bot di Bing. Puoi avere più sezioni User-agent con regole diverse.

Disallow: /path/ dice ai bot di non sottoporre a crawl quel percorso. Disallow: / blocca l'intero sito. Disallow: (vuoto) consente tutto. Puoi elencare più regole Disallow per User-agent.

Allow: /path/ consente il crawling di un percorso specifico anche se una directory genitore è disallowed. Esempio: Disallow: /temp/ ma Allow: /temp/important/ consente il crawling solo della subdirectory /important/.

Pattern Robots.txt Comuni

Pattern 1: Blocca pagine admin

User-agent: * Disallow: /admin/ Disallow: /user/ Disallow: /account/

Questo blocca le pagine amministrative, utente, e account dal crawling. Queste pagine tipicamente non sono destinate ai motori di ricerca.

Pattern 2: Blocca ambiente staging

User-agent: * Disallow: /staging/ Disallow: /test/

Previene ai bot di sottoporre a crawl le versioni test o staging del tuo sito.

Pattern 3: Blocca tipi di file specifici

User-agent: * Disallow: /*.pdf Disallow: /*.zip

Previene ai bot di sottoporre a crawl i PDF e i file ZIP. È utile se hai molti PDF che non dovrebbero essere indicizzati.

Pattern 4: Bot lenti che bombardano il tuo server

User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Crawl-delay: 10

Blocca completamente il bot Ahrefs (se non vuoi che il tuo sito sia sottoposto a crawl da strumenti SEO). Rallenta il bot Semrush aggiungendo un ritardo di 10 secondi tra le richieste. Crawl-delay è utile per i bot aggressivi che sovraccabicano il tuo server.

Pattern 5: Consenti tutto (default)

User-agent: * Disallow:

Questo è il default. Disallow vuoto significa consenti tutto. Puoi anche omettere robots.txt interamente se vuoi che tutto il contenuto sia sottoposto a crawl.

Robots.txt vs Meta Robots Noindex

Robots.txt blocca il crawling. Meta robots noindex blocca l'indicizzazione. Questi servono scopi diversi.

Usa robots.txt quando: Vuoi risparmiare crawl budget. Hai contenuto duplicato che non dovrebbe essere sottoposto a crawl. Hai pagine admin che non dovrebbero essere toccate dai bot. Vuoi rallentare i bot aggressivi.

Usa meta robots noindex quando: Vuoi che una pagina sia sottoposta a crawl ma non indicizzata (per vedere errori e problemi). Vuoi prevenire l'indicizzazione ma comunque consentire link interni e crawling. Vuoi eventualmente rimuovere una pagina dalla ricerca ma mantenerla live.

Esempio: Le pagine impaginate come /products?page=2 possono essere bloccate in robots.txt per risparmiare crawl budget (poiché Google tipicamente consolida la paginazione). Ma potresti volerle sottoposte a crawl per identificare relazioni canoniche. In quel caso, usa i canonici invece di robots.txt.

Gestione del Crawl Budget con Robots.txt

Il crawl budget è il numero di URL che Google sottopone a crawl quotidianamente nel tuo sito. I siti grandi con milioni di pagine non possono avere tutte le pagine sottoposte a crawl quotidianamente. Google alloca il crawl budget basandosi sull'autorità del tuo sito e sulla frequenza di cambiamento. Il crawl budget è finito. Sprecarlo su pagine non importanti significa che le pagine importanti sono sottoposte a crawl meno frequentemente.

Ottimizza il crawl budget bloccando le pagine che non dovrebbero essere sottoposte a crawl: contenuto duplicato, risultati di ricerca impaginati, pagine account utente, pagine test. Ogni pagina che blocchi dà a Google più budget per sottoporre a crawl il tuo contenuto importante.

Comuni sprechi di crawl budget: paginazione infinita (i filtri di prodotto creano URL illimitati), contenuto duplicato con parametri diversi, ID di sessione aggiunti a ogni URL, pagine calendario/evento che generano URL senza fine. Usa robots.txt per bloccare questi pattern.

Google Search Console mostra le statistiche di crawl del tuo sito. Monitora le richieste di crawl quotidianamente. Se Google sottopone a crawl ripetutamente le stesse pagine senza scoprire nuovo contenuto, rivedi il tuo robots.txt e la tua strategia di blocco.

Sitemap in Robots.txt

Includi l'URL della tua sitemap in robots.txt. Aggiungi Sitemap: https://example.com/sitemap.xml alla fine del tuo file robots.txt. Questo dice a Google dove trovare la tua XML sitemap. Puoi elencare più sitemap se hai più file.

Esempio:

User-agent: * Disallow: /admin/ Sitemap: https://example.com/sitemap.xml Sitemap: https://example.com/sitemap-news.xml

Elencare le sitemap in robots.txt è opzionale (puoi inviare le sitemap via Google Search Console), ma è una best practice.

Test e Validazione di Robots.txt

Google Search Console ha un tester robots.txt. Vai a Settings > Crawling > Test robots.txt. Inserisci un URL e vedi se robots.txt lo blocca. Questo è inestimabile per validare le tue regole prima di deployare.

Sempre testa prima di deployare i cambiamenti robots.txt. Un singolo errore (come Disallow: / che blocca l'intero sito) può far crollare i tuoi ranking. Usa il tester per verificare che:

Le pagine importanti non siano bloccate. Le pagine admin siano bloccate. I pattern di contenuto duplicato siano bloccati. Nessun percorso critico sia accidentalmente disallowed.

Dopo aver deployato robots.txt, monitora il rapporto Crawl di Google Search Console per i cambiamenti. Se il crawl rate cala inaspettatamente, potresti aver accidentalmente bloccato contenuto importante.

Errori Robots.txt Comuni

Errore 1: Bloccare CSS e JavaScript. Se blocchi /css/ o /js/ in robots.txt, Google non può sottoporre a crawl il tuo CSS e JavaScript. Senza CSS, Google non può rendere le tue pagine correttamente. Non bloccare CSS o JavaScript.

Errore 2: Bloccare contenuto importante. Sempre testa prima di deployare. Un errore di battitura come Disallow: /p invece di Disallow: /staging/ può bloccare /products/ involontariamente.

Errore 3: Usare robots.txt per la sicurezza. Non fare affidamento su robots.txt per proteggere dati sensibili. Le pagine sensitive dovrebbero richiedere autenticazione, non solo robots.txt. Robots.txt è pubblica e facilmente aggirata.

Errore 4: robots.txt incoerente tra i domini. Se hai più domini, mantieni politiche robots.txt coerenti. Regole accidentalmente diverse possono causare problemi di efficienza di crawl.

Errore 5: Bloccare la sitemap stessa. Non bloccare mai /sitemap.xml in robots.txt. Google deve sottoporre a crawl la sitemap per scoprire le pagine.

Funzionalità Robots.txt Avanzate

Crawl-delay e Request-rate: Queste direttive rallentano i bot. Crawl-delay: 10 aggiunge 10 secondi tra le richieste. Request-rate: 1/10 consente 1 richiesta ogni 10 secondi. Usa questi per i bot che sovraccabicano il tuo server. Google consiglia di usare le impostazioni di Search Console invece di queste direttive.

Direttiva Allow: Consente il crawling di un percorso specifico anche se un percorso genitore è disallowed. Utile per scavare eccezioni. Esempio: Disallow: /temp/ ma Allow: /temp/keep/ consente solo la subdirectory keep.

La specifica robots.txt di Google documenta tutte le direttive supportate. La maggior parte delle funzionalità sono raramente necessarie. Attieniti a User-agent, Disallow, e Sitemap per la maggior parte dei siti.

Direttive Robots.txt Avanzate

Le regole specifiche per User-agent consentono diverse regole di crawl per bot diversi. Puoi specificare regole per Googlebot, Bingbot, e altri user-agent separatamente. Questo è utile se vuoi che Google sottoponga a crawl l'intero sito ma vuoi limitare Bing da accedere a certe sezioni. Specifica user-agent all'inizio di ogni blocco di regola:

User-agent: Googlebot applica le regole solo al crawler di Google. User-agent: * applica le regole a tutti i bot. Le regole si applicano allo user-agent specifico fino alla prossima direttiva user-agent. Puoi creare più blocchi di regola per bot diversi.

Le direttive Crawl-delay e request-rate dicono ai bot quanto spesso sottoporre a crawl. Crawl-delay: 5 dice al bot di aspettare 5 secondi tra le richieste. Questo riduce il carico del server. Request-rate: 1/10 dice al bot di fare al massimo 1 richiesta ogni 10 secondi. La documentazione robots.txt di Google dettagli tutte le direttive supportate.

Le direttive di ubicazione della sitemap dicono ai bot dove trovare la tua sitemap. Sitemap: https://example.com/sitemap.xml punta i bot alla tua XML sitemap. Puoi specificare più sitemap. Questo è raccomandato perché aiuta i bot a scoprire tutte le tue pagine efficientemente.

La direttiva Clean-param rimuove i parametri URL prima del crawling. Clean-param: utm_source&utm_medium https://example.com dice a Google di ignorare i parametri UTM su example.com. Questo previene a Google di trattare i link tracciati come contenuto duplicato. Questo è meno comunemente usato ora poiché Google gestisce automaticamente la maggior parte dei parametri di tracking.

Testa il tuo file robots.txt nel tester robots.txt di Google Search Console. Il tool mostra quali URL sarebbero bloccati dal tuo robots.txt per Googlebot. Questo previene il blocco accidentale di pagine importanti.

Conclusione

Robots.txt è un file semplice ma critico per gestire il crawling dei motori di ricerca e proteggere la privacy del tuo sito. Un robots.txt ben configurato blocca le pagine non importanti, risparchia crawl budget, e previene che il contenuto duplicato sia sottoposto a crawl più volte. Robots.txt mal configurato può accidentalmente bloccare contenuto importante e far crollare i tuoi ranking.

Sempre testa i cambiamenti robots.txt prima di deployare. Usa il tester di Google Search Console per validare le regole. Monitora le tue statistiche di crawl mensilmente. Blocca il contenuto non importantee gestisci il crawl budget efficacemente. Usa il nostro strumento GEO SEO audit per audire la tua configurazione robots.txt e identificare i potenziali problemi con la rastreabilità e l'indicizzazione nel tuo intero sito.

Frequently questions asked

Robots.txt previene l'indicizzazione o solo il crawling?

Robots.txt previene solo il crawling, non l'indicizzazione. Una pagina bloccata da robots.txt non può essere sottoposta a crawl, ma può comunque essere indicizzata se Google trova l'URL altrove (in una sitemap, attraverso link da altri siti). Per prevenire l'indicizzazione, usa il tag meta robots noindex. Robots.txt è per la gestione del crawl budget, non il controllo dell'indicizzazione.

Robots.txt può bloccare bot cattivi e scraper?

Robots.txt è una linea guida, non un firewall. I bot ben comportati (Google, Bing) rispettano robots.txt. I bot cattivi e gli scraper ignorano completamente robots.txt. Per bloccare i bot cattivi, usa strumenti a livello di server (blocco IP, rate limiting) o strumenti di sicurezza come Cloudflare. Robots.txt protegge il tuo sito dai bot buoni che rispettano lo standard, non da attori malintenzionati.

Qual è la dimensione massima per robots.txt?

Google consiglia di mantenere robots.txt sotto 500 kilobyte. File robots.txt molto grandi possono impattare l'efficienza del crawling. Se il tuo robots.txt cresce eccessivamente, considera il consolidamento delle regole, l'utilizzo del raggruppamento o la ristrutturazione del tuo sito. La maggior parte dei siti ha file robots.txt sotto 10KB, quindi la dimensione raramente è un problema.