Quali user-agent di crawler IA devo consentire in robots.txt?

I principali user-agent di crawler IA da conoscere sono: GPTBot (addestramento OpenAI), OAI-SearchBot (recupero SearchGPT), PerplexityBot (Perplexity), Google-Extended (addestramento IA Google e Gemini), ClaudeBot (Anthropic) e Meta-ExternalAgent (Meta AI). Se non hai uno specifico motivo di licenza per bloccarli, consentirli tutti massimizza la tua potenziale visibilità IA.

Cos'è llms.txt ed è obbligatorio?

llms.txt è una convenzione emergente, simile a robots.txt, che fornisce un riepilogo in testo semplice del contenuto e della struttura di un sito specificamente per i LLM. Non è uno standard obbligatorio, ma è un segnale a basso costo che aiuta i sistemi IA a comprendere lo scopo del tuo sito.

Bloccare Googlebot blocca anche i crawler IA di Google?

No. Google-Extended, utilizzato per l'addestramento IA e Gemini, è un user-agent separato da Googlebot. Puoi bloccare Google-Extended senza influire sulla tua indicizzazione standard di Google Search, e viceversa.

Audit crawlabilità IA del sito web - Strumento SEO gratuito

Produrre contenuti di alta qualità e ben strutturati è utile per il GEO solo se i crawler IA riescono effettivamente a raggiungere e a renderizzare quei contenuti. Una singola direttiva del robots.txt fuori posto, uno stack di rendering pesante in JavaScript o un file llms.txt assente possono escludere in silenzio l'intero sito dalle pipeline di addestramento e recupero di tutti i principali motori IA. Lo strumento qui sopra esegue l'audit di un dominio che fornite e verifica se i principali crawler IA, tra cui GPTBot, OAI-SearchBot, PerplexityBot, Google-Extended e ClaudeBot, possono accedere alle vostre pagine ed elaborarle correttamente.

Cosa verifica l'audit

Lo strumento qui sopra valuta quattro categorie principali di scansionabilità:

Direttive del robots.txt: l'audit legge il vostro file robots.txt e individua quali user-agent dei crawler IA sono bloccati esplicitamente, bloccati accidentalmente da regole con wildcard o assenti da qualsiasi lista di autorizzazione. Verifica inoltre che il file stesso sia accessibile, formattato correttamente e non superi il limite di 500 KB imposto da alcuni crawler.
Header meta robots e X-Robots-Tag: un robots.txt che consente la scansione non è sufficiente se singole pagine recano un meta tag noindex o noarchive, oppure se gli header di risposta del server indicano ai bot di saltare la pagina. L'audit ispeziona entrambe le fonti.
Dipendenza dal rendering JavaScript: le pagine che forniscono contenuti critici esclusivamente tramite JavaScript sono invisibili ai crawler che non eseguono script. L'audit rileva se il contenuto principale delle vostre pagine è disponibile nell'HTML grezzo o solo dopo il rendering lato client.
Sitemap e llms.txt: una sitemap.xml ben mantenuta aiuta i crawler IA a scoprire le pagine in modo efficiente. Il più recente standard llms.txt, modellato sul robots.txt ma pensato specificamente per gli LLM, vi consente di dichiarare quali sezioni del vostro sito sono adatte al consumo da parte dell'IA e di riassumere i vostri contenuti in un formato leggibile dalle macchine. L'audit verifica se entrambi i file esistono e sono formattati correttamente.

Come interpretare i risultati e agire

Lo strumento qui sopra segnala ogni problema con un livello di gravità. Ecco come stabilire le priorità della vostra correzione:

Crawler IA bloccati nel robots.txt: rimuovete o restringete la direttiva che blocca lo user-agent in questione. Se bloccate intenzionalmente tutti i crawler IA per ragioni di licenza, verificate che si tratti di una scelta deliberata e non di un blocco accidentale con wildcard ereditato da un template del CMS.
Noindex su pagine chiave: esaminate ogni pagina segnalata. Se una pagina contiene contenuti di valore che volete vedere citati, rimuovete la direttiva noindex. Se la pagina è esclusa intenzionalmente, verificate che il blocco fosse effettivamente voluto e non una direttiva di un ambiente di staging rimasta in vigore dopo la pubblicazione.
Contenuti solo in JavaScript: implementate il rendering lato server (SSR) o la generazione di siti statici (SSG) per i contenuti che volete far indicizzare dai crawler IA. Come minimo, assicuratevi che titoli delle pagine, intestazioni e le prime 200 parole del corpo del testo siano disponibili nell'HTML renderizzato dal server prima dell'esecuzione del JavaScript.
Sitemap assente o obsoleta: generate una nuova sitemap.xml che includa tutti gli URL canonici, escluda le pagine reindirizzate o noindex e sia referenziata nel robots.txt. Aggiornatela automaticamente ogni volta che pubblicate nuovi contenuti.
Nessun file llms.txt: create un file llms.txt nella radice del vostro dominio. Come minimo, includete una breve descrizione del vostro sito, gli argomenti principali trattati e i link alle vostre pagine più importanti. È un segnale a basso sforzo che può migliorare in modo significativo il modo in cui i crawler IA categorizzano il vostro sito.

Un benchmark sull'accesso alla scansione IA

Le AI Overview compaiono ormai in circa il 31% delle query su Google e le pagine in posizione 1 dietro un'AI Overview perdono fino al 58% dei clic previsti (Ahrefs, 2025). Le pagine che catturano quel traffico spostato sono quelle citate all'interno della risposta IA. La scansionabilità è il prerequisito: se un bot IA non può accedere ai vostri contenuti, nessuna ottimizzazione on-page vi farà guadagnare una citazione. Correggere le barriere alla scansione è quindi il punto di partenza con la leva più alta per qualsiasi strategia GEO.

Per un monitoraggio continuo della vostra scansionabilità IA e delle prestazioni di citazione su tutti i principali motori IA, Sorank traccia la vostra visibilità GEO e vi avvisa quando l'accesso cambia.