Le Vérificateur robots.txt récupère et analyse le fichier robots.txt de n'importe quel domaine, valide sa syntaxe et met en évidence les directives qui affectent les crawlers IA tels que GPTBot, PerplexityBot et Google-Extended. Saisissez votre domaine dans l'outil ci-dessus pour obtenir une analyse immédiate.
Les bases de robots.txt et pourquoi les crawlers IA changent la donne
Robots.txt est un fichier texte brut à la racine de votre domaine qui indique aux crawlers quels chemins ils peuvent ou ne peuvent pas visiter. La convention existe depuis 1994 et est respectée par tous les grands moteurs de recherche ainsi que par les systèmes IA. Ce qui a changé depuis 2023, c'est le nombre de nouveaux agents utilisateurs qui consultent ce fichier -- et les conséquences d'une erreur de configuration.
Lorsque ChatGPT a déployé GPTBot et qu'OpenAI a mis en service OAI-SearchBot pour SearchGPT, de nombreux sites ont découvert que leurs règles génériques bloquaient accidentellement ces crawlers, les rendant invisibles pour les moteurs IA. Certains robots.txt étaient suffisamment vieux pour avoir été écrits à une époque où Disallow: / pour des user-agents inconnus semblait une bonne pratique de sécurité. Cette directive bloque désormais aussi bien la navigation en direct de ChatGPT que la récupération Perplexity.
Ce que l'outil vérifie
- Analyse de syntaxe : les erreurs de mise en forme -- espaces incorrects, directives en double, règles se chevauchant -- peuvent produire un comportement imprévisible. L'outil signale chaque erreur de syntaxe avec la ligne concernée.
- Accès des crawlers IA : l'outil vérifie spécifiquement si GPTBot, OAI-SearchBot, PerplexityBot, Google-Extended, ClaudeBot et les autres agents utilisateurs IA connus sont autorisés ou bloqués.
- Accès des moteurs de recherche traditionnels : Googlebot, Bingbot et autres sont également vérifiés pour s'assurer que le fichier n'introduit pas de problèmes SEO involontaires.
- Déclaration de sitemap : le fichier inclut-il une directive Sitemap valide pointant vers votre sitemap.xml ? C'est l'une des formes les plus simples d'aide à la découverte pour les crawlers.
- Règles contradictoires : les combinaisons Allow/Disallow se chevauchant sont signalées avec une explication claire de la règle qui a la priorité.
Comment interpréter et corriger les résultats
- Si un crawler IA spécifique est bloqué et que vous souhaitez qu'il accède à votre site, ajoutez
User-agent: [NomDuBot]\nAllow: /avant toute règle génériqueDisallow: /. Les règles spécifiques aux agents utilisateurs ont toujours la priorité sur les règles génériques. - Si le fichier contient une règle
Disallow: /sousUser-agent: *, vérifiez si elle est intentionnelle. Cette directive bloque tout le monde, y compris les crawlers IA. - Les erreurs de syntaxe comme les espaces manquants après les deux-points ou les directives mal épelées font que les robots ignorent silencieusement la règle. Corrigez-les même si la règle en question n'est pas critique.
- Après la correction, déployez le fichier mis à jour et utilisez le Testeur robots.txt de Google Search Console pour confirmer que le nouveau comportement est bien actif.
Bots IA connus et leurs agents utilisateurs
Voici les agents utilisateurs des principaux crawlers IA que l'outil surveille :
- GPTBot -- crawler d'entraînement d'OpenAI
- OAI-SearchBot -- moteur de navigation en direct de SearchGPT
- PerplexityBot -- crawler de Perplexity AI
- Google-Extended -- échantillonnage de données pour Bard/Gemini et l'entraînement IA de Google
- ClaudeBot -- crawler web d'Anthropic
- Meta-ExternalAgent -- bot de navigation Meta AI
- Applebot-Extended -- données d'entraînement Apple
Ces agents utilisateurs sont distincts de Googlebot ou de Bingbot. Bloquer ou autoriser l'un n'affecte pas l'autre, sauf si une règle générique s'applique à tous.
Repaire : pourquoi cela compte maintenant
Les AI Overviews apparaissent sur environ 31 % des requêtes Google. Si votre robots.txt bloque Google-Extended, vos pages ne peuvent pas être échantillonnées pour les réponses IA. De la même manière, si GPTBot est bloqué, vos pages sont exclues de la récupération en direct de ChatGPT. Une seule directive peut silencieusement effacer votre visibilité dans l'ensemble d'un moteur IA.
Pour un suivi continu de votre visibilité IA sur ChatGPT, Perplexity et Gemini, Sorank surveille automatiquement vos citations et votre accessibilité au crawl.
























