Robots.txt : Guide complet avec exemples

À propos de l'auteur

Thibault Besson-Magdelain

Fondateur de Sorank, 5+ ans d'expérience en SEO, GEO Enthusiast.

Lire d'autres articles

Résumer avec

ChatGPT Perplexity

Share on

Résumé : Robots.txt fichier texte votre racine site dit moteurs recherche quelles parties site crawl lesquelles sauter, aide gérer budget crawl prévenir indexation pages privées.

Robots.txt fichier simple mais puissant contrôle comment moteurs recherche crawl site. Il s'assoit `https://example.com/robots.txt` contient règles spécifiant quelles pages répertoires Google, Bing, autres bots peuvent crawl. Robots.txt aide gérer budget crawl (nombre pages Google crawl quotidien), prévient gaspiller crawl pages non-importantes, garde contenu privé hors résultats recherche.

Plupart sites ont fichier robots.txt, mais beaucoup sont mal configurés. Robots.txt mal configuré peut accidentellement bloquer pages importantes, gaspillant potentiel classement. Robots.txt bien configuré améliore efficacité crawl protège vos vie privée site. Ce guide couvre syntaxe robots.txt, meilleures pratiques, exemples monde réel.

Qu'est-ce que robots.txt et comment moteurs recherche l'utilisent

Robots.txt fichier texte standardisé qui communique instructions crawl bots moteurs recherche. Quand bot visite d'abord votre site, demande `/robots.txt` avant crawlant quoi que. Robot lit règles suit (assumant bot bien-comportant).

Documentation robots.txt Google est référence officielle standard. Format robots.txt créé 1994 été largement adopté. Tous moteurs recherche majeurs (Google, Bing, Baidu) respectent robots.txt.

Important : Robots.txt ligne directrice, pas firewall. Bots bien-comportants (Google, Bing) respectent règles robots.txt. Mauvais bots scrapers ignorent robots.txt. Utilisez robots.txt gérer crawl moteurs recherche, pas bloquer pirates ou scrapers. Pour sécurité, utilisez outils niveau serveur.

Syntaxe robots.txt et règles basiques

Robots.txt utilise syntaxe texte simple. Chaque règle deux parties : User-agent (quel bot règle s'applique) et chemins Disallow (quelles pages bloquer).

Exemple basique :

User-agent: * Disallow: /admin/ Disallow: /staging/ Sitemap: https://example.com/sitemap.xml

Cela dit tous bots (`*` signifie tous) ne pas crawl répertoires `/admin/` `/staging/`. Ligne Sitemap dit bots où votre sitemap est situé.

User-agent: \* signifie tous bots. Vous pouvez aussi spécifier bots individuels :

`User-agent: Googlebot` s'applique seulement bot Google. `User-agent: Bingbot` s'applique seulement bot Bing. Vous pouvez avoir sections User-agent multiples règles différentes.

Disallow: /path/ dit bots ne pas crawl ce chemin. Disallow: / bloque site entier. Disallow: (vide) permet tout. Vous pouvez lister règles Disallow multiples par User-agent.

Allow: /path/ permet crawl chemin spécifique même si répertoire parent disallowé. Exemple : Disallow: /temp/ mais Allow: /temp/important/ permet crawl seulement sous-répertoire /important/.

Motifs robots.txt courants

Motif 1 : Bloquer pages admin

User-agent: * Disallow: /admin/ Disallow: /user/ Disallow: /account/

Cela bloque pages administratives, utilisateur, compte crawl. Ces pages typiquement pas destinées moteurs recherche.

Motif 2 : Bloquer environnement staging

User-agent: * Disallow: /staging/ Disallow: /test/

Empêche bots crawler versions test ou staging site.

Motif 3 : Bloquer types fichiers spécifiques

User-agent: * Disallow: /*.pdf Disallow: /*.zip

Empêche bots crawler PDFs fichiers ZIP. Ceci utile beaucoup PDFs ne doivent être indexés.

Motif 4 : Bots lents frappent serveur

User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Crawl-delay: 10

Bloque complètement bot Ahrefs (vous ne voulez site exploré outils SEO). Ralentit bot Semrush ajoutant délai 10 secondes entre demandes. Crawl-delay utile bots agressifs qui surchargent votre serveur.

Motif 5 : Permettre tous (défaut)

User-agent: * Disallow:

C'est défaut. Vide Disallow signifie permettre tous. Vous pouvez aussi omettre robots.txt entièrement vous voulez tout contenu crawlable.

Robots.txt vs Robots meta noindex

Robots.txt bloque crawl. Robots meta noindex bloque indexation. Ceux-ci servent buts différents.

Utilisez robots.txt quand : Vous voulez économiser budget crawl. Vous avez contenu dupliqué ne doit pas être exploré. Vous avez pages admin ne doivent pas être touchées bots. Vous voulez ralentir bots agressifs.

Utilisez noindex meta robots quand : Vous voulez page être crawlée mais pas indexée (voir erreurs problèmes). Vous voulez prévenir indexation gardant liens internes crawl. Vous voulez éventuellement supprimer page recherche gardant vive.

Exemple : Pages paginées comme `/products?page=2` peuvent être bloquées robots.txt économiser budget crawl (puisque Google typiquement consolide pagination). Mais vous pourriez vouloir explorés identifier relations canoniques. Dans ce cas, utilisez canonicals lieu robots.txt.

Gérer budget crawl avec robots.txt

Budget crawl nombre URLs Google crawl quotidien votre site. Gros sites millions pages ne peuvent pas avoir pages crawlées quotidien. Google alloue budget crawl selon autorité votre site fréquence changement. Budget crawl fini. Gaspiller sur pages non-importantes signifie pages importantes crawlées moins souvent.

Optimisez budget crawl bloquant pages ne doivent pas être crawlées : contenu dupliqué, résultats recherche paginés, pages compte utilisateur, pages test. Chaque page bloquez donne Google budget davantage crawl contenu important.

Gaspilleurs budget crawl courants : pagination infinie (filtres produit créent URLs illimitées), contenu dupliqué paramètres différents, IDs sessions ajoutées chaque URL, pages calendrier/événement générant URLs infinies. Utilisez robots.txt bloquer motifs ceux-ci.

Google Search Console montre statistiques crawl votre site. Surveillez demandes crawl quotidien. Si Google crawl mêmes pages répétées sans découvrir contenu nouveau, révisez robots.txt stratégie blocage.

Sitemap dans robots.txt

Incluez URL sitemap votre robots.txt. Ajoutez `Sitemap: https://example.com/sitemap.xml` fin votre fichier robots.txt. Cela dit Google où trouver votre sitemap XML. Vous pouvez lister sitemaps multiples vous avez fichiers multiples.

Exemple :

User-agent: * Disallow: /admin/ Sitemap: https://example.com/sitemap.xml Sitemap: https://example.com/sitemap-news.xml

Lister sitemaps robots.txt optionnel (vous pouvez soumettre sitemaps via Google Search Console), mais c'est meilleure pratique.

Test et validation robots.txt

Google Search Console testeur robots.txt. Allez Paramètres > Crawl > Test robots.txt. Entrez URL voyez si robots.txt la bloque. Ceci précieux valider règles avant déploiement.

Testez toujours avant déployer changements robots.txt. Une seule erreur (comme `Disallow: /` bloquant site entier) peut écraser classements. Utilisez testeur vérifier que :

Pages importantes ne sont pas bloquées. Pages admin sont bloquées. Motifs contenu dupliqué sont bloqués. Aucun chemins critiques accidentellement disallowés.

Après déploiement robots.txt, surveillez rapport Crawl Google Search Console pour changements. Si taux crawl chute inattendument, vous pouvez avoir accidentellement bloqué contenu important.

Erreurs robots.txt courantes

Erreur 1 : Bloquer CSS JavaScript. Vous bloquez `/css/` ou `/js/` robots.txt, Google ne peut pas crawl CSS JavaScript. Sans CSS, Google ne peut rendre pages correctement. Ne bloquez pas CSS JavaScript.

Erreur 2 : Bloquer contenu important. Testez toujours avant déployer. Une coquille comme `Disallow: /p` lieu `Disallow: /staging/` peut bloquer `/products/` accidentellement.

Erreur 3 : Utiliser robots.txt pour sécurité. Ne comptez pas robots.txt protéger données sensibles. Pages sensibles sécurité doivent exiger authentification, robots.txt seulement. Robots.txt public facilement contourné.

Erreur 4 : Robots.txt incohérente domaines. Vous avez domaines multiples, maintenez politiques robots.txt cohérentes. Incohérent accidentel peut causer problèmes efficacité crawl.

Erreur 5 : Bloquer sitemap lui-même. Ne bloquez jamais `/sitemap.xml` robots.txt. Google doit crawl sitemap découvrir pages.

Fonctionnalités robots.txt avancées

Crawl-delay et Request-rate : Ces directives ralentissent bots. `Crawl-delay: 10` ajoute 10 secondes entre demandes. `Request-rate: 1/10` permet 1 demande par 10 secondes. Utilisez pour bots surchargent serveur. Google recommande utilisant paramètres Google Search Console lieu ces directives.

Directive Allow : Permet crawl chemin spécifique même si chemin parent disallowé. Utile carving exceptions. Exemple : `Disallow: /temp/` mais `Allow: /temp/keep/` permet seulement sous-répertoire keep.

Spécification robots.txt Google documente directives supportées. Beaucoup fonctionnalités rarement nécessaires. Restez User-agent basiques, Disallow, Sitemap plupart sites.

Directives robots.txt avancées

Règles spécifiques User-agent permettent règles crawl différentes bots différents. Vous pouvez spécifier règles Googlebot, Bingbot, user-agents autres séparément. Ceci utile voulez Google crawl site entier mais restreindre Bing sections certaines. Spécifiez user-agent début bloc règle chaque :

`User-agent: Googlebot` s'applique règles seulement crawler Google. `User-agent: *` s'applique règles tous bots. Règles s'appliquent user-agent spécifique jusqu'à prochaine directive user-agent. Vous pouvez créer blocs règle multiples bots différents.

Directives Crawl-delay et request-rate disent bots souvent crawl. `Crawl-delay: 5` dit bot attendre 5 secondes entre demandes. Ceci réduit charge serveur. `Request-rate: 1/10` dit bot faire au maximum 1 demande par 10 secondes. Documentation robots.txt Google détaille directives supportées.

Directives localisation sitemap disent bots où trouver sitemap. `Sitemap: https://example.com/sitemap.xml` pointe bots votre sitemap XML. Vous pouvez spécifier sitemaps multiples. Ceci recommandé car aide bots découvrir pages efficacement.

Directive Clean-param supprime paramètres URL avant crawl. `Clean-param: utm_source&utm_medium https://example.com` dit Google ignorer paramètres UTM example.com. Ceci prévient Google traiter liens suivés contenu dupliqué. Ceci moins couramment utilisé maintenant puisque Google gère plupart paramètres suivi automatiquement.

Testez fichier robots.txt dans testeur robots.txt Google Search Console. L'outil montre quelles URLs seraient bloquées robots.txt pour Googlebot. Ceci prévient blocage accidentel pages importantes.

Conclusion

Robots.txt fichier simple critique gérer crawl moteurs recherche protéger vie privée votre site. Robots.txt bien configuré bloque pages non-importantes, économise budget crawl, prévient contenu dupliqué être exploré multiples fois. Robots.txt mal configuré peut accidentellement bloquer contenu important écraser classements.

Testez toujours changements robots.txt avant déploiement. Utilisez testeur Google Search Console valider règles. Surveillez statistiques crawl mensuellement. Bloquez contenu non-important gérez budget crawl efficacement. Utilisez notre outil audit GEO SEO auditer configuration robots.txt identifier problèmes potentiels crawlabilité indexation site entier.

Questions fréquemment posées

Robots.txt empêche indexation ou seulement crawl?

Robots.txt empêche crawl seulement, pas indexation. Page bloquée robots.txt ne peut être explorée, peut être indexée Google trouve URL ailleurs (sitemap, liens autres sites). Pour prévenir indexation, utilisez balise robots meta noindex. Robots.txt pour gestion budget crawl.

Robots.txt peut bloquer mauvais bots scrapers?

Robots.txt une ligne directrice, pas firewall. Bots bien-comportants (Google, Bing) respectent robots.txt. Mauvais bots scrapers ignorent robots.txt entièrement. Pour bloquer mauvais bots, utilisez outils niveau serveur (blocage IP, limitation débit) ou outils sécurité comme Cloudflare.

Quelle taille maximale robots.txt?

Google recommande garder robots.txt moins 500 kiloocts. Très gros fichiers robots.txt peuvent impacter efficacité crawl. Si robots.txt croît excessivement, considérez consolider règles, utiliser groupage, restructurer site.