Vérificateur robots.txt - Outil SEO gratuit

Le Vérificateur robots.txt récupère et analyse le fichier robots.txt de n'importe quel domaine, valide sa syntaxe et met en évidence les directives qui affectent les crawlers IA tels que GPTBot, PerplexityBot et Google-Extended. Saisissez votre domaine dans l'outil ci-dessus pour obtenir une analyse immédiate.

Les bases de robots.txt et pourquoi les crawlers IA changent la donne

Robots.txt est un fichier texte brut à la racine de votre domaine qui indique aux crawlers quels chemins ils peuvent ou ne peuvent pas visiter. La convention existe depuis 1994 et est respectée par tous les grands moteurs de recherche ainsi que par les systèmes IA. Ce qui a changé depuis 2023, c'est le nombre de nouveaux agents utilisateurs qui consultent ce fichier -- et les conséquences d'une erreur de configuration.

Lorsque ChatGPT a déployé GPTBot et qu'OpenAI a mis en service OAI-SearchBot pour SearchGPT, de nombreux sites ont découvert que leurs règles génériques bloquaient accidentellement ces crawlers, les rendant invisibles pour les moteurs IA. Certains robots.txt étaient suffisamment vieux pour avoir été écrits à une époque où Disallow: / pour des user-agents inconnus semblait une bonne pratique de sécurité. Cette directive bloque désormais aussi bien la navigation en direct de ChatGPT que la récupération Perplexity.

Ce que l'outil vérifie

Analyse de syntaxe : les erreurs de mise en forme -- espaces incorrects, directives en double, règles se chevauchant -- peuvent produire un comportement imprévisible. L'outil signale chaque erreur de syntaxe avec la ligne concernée.
Accès des crawlers IA : l'outil vérifie spécifiquement si GPTBot, OAI-SearchBot, PerplexityBot, Google-Extended, ClaudeBot et les autres agents utilisateurs IA connus sont autorisés ou bloqués.
Accès des moteurs de recherche traditionnels : Googlebot, Bingbot et autres sont également vérifiés pour s'assurer que le fichier n'introduit pas de problèmes SEO involontaires.
Déclaration de sitemap : le fichier inclut-il une directive Sitemap valide pointant vers votre sitemap.xml ? C'est l'une des formes les plus simples d'aide à la découverte pour les crawlers.
Règles contradictoires : les combinaisons Allow/Disallow se chevauchant sont signalées avec une explication claire de la règle qui a la priorité.

Comment interpréter et corriger les résultats

Si un crawler IA spécifique est bloqué et que vous souhaitez qu'il accède à votre site, ajoutez User-agent: [NomDuBot]\nAllow: / avant toute règle générique Disallow: /. Les règles spécifiques aux agents utilisateurs ont toujours la priorité sur les règles génériques.
Si le fichier contient une règle Disallow: / sous User-agent: *, vérifiez si elle est intentionnelle. Cette directive bloque tout le monde, y compris les crawlers IA.
Les erreurs de syntaxe comme les espaces manquants après les deux-points ou les directives mal épelées font que les robots ignorent silencieusement la règle. Corrigez-les même si la règle en question n'est pas critique.
Après la correction, déployez le fichier mis à jour et utilisez le Testeur robots.txt de Google Search Console pour confirmer que le nouveau comportement est bien actif.

Bots IA connus et leurs agents utilisateurs

Voici les agents utilisateurs des principaux crawlers IA que l'outil surveille :

GPTBot -- crawler d'entraînement d'OpenAI
OAI-SearchBot -- moteur de navigation en direct de SearchGPT
PerplexityBot -- crawler de Perplexity AI
Google-Extended -- échantillonnage de données pour Bard/Gemini et l'entraînement IA de Google
ClaudeBot -- crawler web d'Anthropic
Meta-ExternalAgent -- bot de navigation Meta AI
Applebot-Extended -- données d'entraînement Apple

Ces agents utilisateurs sont distincts de Googlebot ou de Bingbot. Bloquer ou autoriser l'un n'affecte pas l'autre, sauf si une règle générique s'applique à tous.

Repaire : pourquoi cela compte maintenant

Les AI Overviews apparaissent sur environ 31 % des requêtes Google. Si votre robots.txt bloque Google-Extended, vos pages ne peuvent pas être échantillonnées pour les réponses IA. De la même manière, si GPTBot est bloqué, vos pages sont exclues de la récupération en direct de ChatGPT. Une seule directive peut silencieusement effacer votre visibilité dans l'ensemble d'un moteur IA.

Pour un suivi continu de votre visibilité IA sur ChatGPT, Perplexity et Gemini, Sorank surveille automatiquement vos citations et votre accessibilité au crawl.

Questions fréquentes

Puis-je bloquer les robots IA tout en permettant à Google de crawler mon site ?

Oui. Utilisez des directives spécifiques par agent utilisateur. Ajoutez <code>User-agent: GPTBot\nDisallow: /</code> pour bloquer l'entraînement d'OpenAI, tout en gardant <code>User-agent: Googlebot\nAllow: /</code> intact.

robots.txt peut-il être différent pour les bots IA et les moteurs de recherche ?

Oui. C'est l'un des avantages de la syntaxe robots.txt : chaque agent utilisateur peut avoir son propre ensemble de règles. Vous pouvez bloquer sélectivement des bots IA spécifiques, autoriser certains et laisser les moteurs de recherche classiques non affectés.

Mon robots.txt bloque accidentellement les crawlers IA. Quel est l'impact ?

Si GPTBot est bloqué, vos pages sont exclues de la récupération en direct de ChatGPT. Si Google-Extended est bloqué, vos pages ne peuvent pas être échantillonnées pour les AI Overviews de Google. Les deux ont un impact direct sur votre visibilité IA, indépendamment de la qualité de votre contenu.