Robots.txt: O Guia Completo Com Exemplos

Sobre o autor

Thibault Besson-Magdelain

Fundador da Sorank, com mais de 5 anos de experiência em SEO, entusiasta de GEO.

Ler outros artigos

Resumir com

ChatGPT Perplexity

Compartilhar em

Resumo: Robots.txt é um ficheiro de texto na raiz do nosso site que diz aos motores de busca que partes do nosso site rastrear e quais saltar, ajudando a gerir orçamento de rastreamento e prevenir indexação de páginas privadas.

Robots.txt é um ficheiro simples mas poderoso que controla como os motores de busca rastreiam nosso website. Fica em `https://example.com/robots.txt` e contém regras especificando quais páginas e diretórios Google, Bing e outros bots podem rastrear. Robots.txt ajuda a gerir orçamento de rastreamento (o número de páginas que Google rastreia diariamente), previne desperdício de rastreamento em páginas não importantes e mantém conteúdo privado fora dos resultados de busca.

A maioria dos websites tem um ficheiro robots.txt, mas muitos são mal configurados. Um robots.txt mal configurado pode acidentalmente bloquear páginas importantes, desperdiçando potencial de ranking. Um robots.txt bem configurado melhora eficiência de rastreamento e protege a privacidade do nosso site. Este guia cobre sintaxe de robots.txt, melhores práticas e exemplos do mundo real.

O Que É Robots.txt e Como Motores de Busca O Usam

Robots.txt é um ficheiro de texto padronizado que comunica instruções de rastreamento a bots de motores de busca. Quando um bot visita nosso site pela primeira vez, solicita `/robots.txt` antes de rastrear qualquer coisa. O robot lê as regras e as segue (assumindo que o bot é bem-comportado).

A documentação robots.txt do Google é a referência autoritativa para o padrão. O formato robots.txt foi criado em 1994 e foi amplamente adotado. Todos os motores de busca principais (Google, Bing, Baidu) respeitam robots.txt.

Importante: Robots.txt é uma diretriz, não um firewall. Bots bem-comportados (Google, Bing) respeitam regras robots.txt. Bots maliciosos e scrapers ignoram robots.txt. Usem robots.txt para gerir rastreamento de motores de busca, não para bloquear hackers ou scrapers. Para segurança, usem ferramentas no nível do servidor.

Sintaxe e Regras Básicas de Robots.txt

Robots.txt usa sintaxe de texto simples. Cada regra tem duas partes: um User-agent (qual bot a regra aplica) e caminhos Disallow (quais páginas bloquear).

Exemplo básico:

User-agent: * Disallow: /admin/ Disallow: /staging/ Sitemap: https://example.com/sitemap.xml

Isto diz a todos os bots (`*` significa todos) para não rastrear os diretórios `/admin/` e `/staging/`. A linha Sitemap diz aos bots onde nosso sitemap está localizado.

User-agent: \* significa todos os bots. Também podemos especificar bots individuais:

`User-agent: Googlebot` aplica apenas ao bot do Google. `User-agent: Bingbot` aplica apenas ao bot do Bing. Podemos ter múltiplas seções User-agent com regras diferentes.

Disallow: /path/ diz aos bots para não rastrear esse caminho. Disallow: / bloqueia o site inteiro. Disallow: (vazio) permite tudo. Podemos listar múltiplas regras Disallow por User-agent.

Allow: /path/ permite rastreamento de um caminho específico mesmo se um diretório pai é bloqueado. Exemplo: Disallow: /temp/ mas Allow: /temp/important/ permite rastreamento apenas do subdiretório /important/.

Padrões Comuns de Robots.txt

Padrão 1: Bloquear páginas de administrador

User-agent: * Disallow: /admin/ Disallow: /user/ Disallow: /account/

Isto bloqueia páginas administrativas, de utilizador e de conta de rastreamento. Estas páginas tipicamente não são destinadas a motores de busca.

Padrão 2: Bloquear ambiente de staging

User-agent: * Disallow: /staging/ Disallow: /test/

Previne bots de rastrear versões de teste ou staging do nosso site.

Padrão 3: Bloquear tipos de ficheiro específicos

User-agent: * Disallow: /*.pdf Disallow: /*.zip

Previne bots de rastrear PDFs e ficheiros ZIP. Isto é útil se temos muitos PDFs que não deveriam ser indexados.

Padrão 4: Bots lentos que martelam nosso servidor

User-agent: AhrefsBot Disallow: / User-agent: SemrushBot Crawl-delay: 10

Bloqueia completamente o bot Ahrefs (se não queremos que nosso site seja rastreado por ferramentas SEO). Atrasa o bot Semrush adicionando uma demora de 10 segundos entre solicitações. Crawl-delay é útil para bots agressivos que sobrecarregam nosso servidor.

Padrão 5: Permitir todos (padrão)

User-agent: * Disallow:

Isto é o padrão. Disallow vazio significa permitir todos. Também podemos omitir robots.txt inteiramente se queremos que todo conteúdo seja rastreável.

Robots.txt vs Meta Robots Noindex

Robots.txt bloqueia rastreamento. Meta robots noindex bloqueia indexação. Estes servem propósitos diferentes.

Use robots.txt quando: Queremos economizar orçamento de rastreamento. Temos conteúdo duplicado que não deveria ser rastreado. Temos páginas de administrador que não deveriam ser tocadas por bots. Queremos abrandar bots agressivos.

Use meta robots noindex quando: Queremos que uma página seja rastreada mas não indexada (para ver erros e problemas). Queremos prevenir indexação mas ainda permitir links internos e rastreamento. Queremos eventualmente remover uma página da busca mas manter viva.

Exemplo: Páginas paginadas como `/products?page=2` podem ser bloqueadas em robots.txt para economizar orçamento de rastreamento (já que Google tipicamente consolida paginação). Mas queremos que sejam rastreadas para identificar relações canônicas. Nesse caso, usem canonicais em vez de robots.txt.

Gerindo Orçamento de Rastreamento Com Robots.txt

Orçamento de rastreamento é o número de URLs que Google rastreia diariamente no nosso site. Sites grandes com milhões de páginas não podem ter todas as páginas rastreadas diariamente. Google aloca orçamento de rastreamento baseado na autoridade do nosso site e frequência de mudança. Orçamento de rastreamento é finito. Desperdiçá-lo em páginas não importantes significa páginas importantes são rastreadas menos frequentemente.

Otimizem orçamento de rastreamento bloqueando páginas que não deveriam ser rastreadas: conteúdo duplicado, resultados de busca paginados, páginas de conta de utilizador, páginas de teste. Cada página que bloquearem dá ao Google mais orçamento para rastrear nosso conteúdo importante.

Desperdícios comuns de orçamento de rastreamento: paginação infinita (filtros de produto criam URLs ilimitadas), conteúdo duplicado com parâmetros diferentes, IDs de sessão anexados a cada URL, páginas de calendário/evento gerando URLs infinitos. Usem robots.txt para bloquear estes padrões.

Google Search Console mostra estatísticas de rastreamento do nosso site. Monitorizem solicitações de rastreamento diariamente. Se Google rastreia as mesmas páginas repetidamente sem descobrir conteúdo novo, revejam nosso robots.txt e estratégia de bloqueio.

Sitemap em Robots.txt

Incluam URL do nosso sitemap em robots.txt. Adicionem `Sitemap: https://example.com/sitemap.xml` no final do nosso ficheiro robots.txt. Isto diz ao Google onde encontrar nosso sitemap XML. Podemos listar múltiplos sitemaps se temos múltiplos ficheiros.

Exemplo:

User-agent: * Disallow: /admin/ Sitemap: https://example.com/sitemap.xml Sitemap: https://example.com/sitemap-news.xml

Listar sitemaps em robots.txt é opcional (podemos submeter sitemaps via Google Search Console), mas é uma melhor prática.

Testando e Validando Robots.txt

Google Search Console tem um testador robots.txt. Vão para Settings > Crawling > Test robots.txt. Entrem uma URL e vejam se robots.txt a bloqueia. Isto é inestimável para validar nossas regras antes de fazer deploy.

Sempre testem antes de fazer deploy de mudanças robots.txt. Um único erro (como `Disallow: /` bloqueando nosso site inteiro) pode destruir nossos rankings. Usem o testador para verificar que:

Páginas importantes não são bloqueadas. Páginas de administrador são bloqueadas. Padrões de conteúdo duplicado são bloqueados. Nenhum caminho crítico é acidentalmente disallow.

Após fazer deploy robots.txt, monitorizem relatório de Crawl do Google Search Console para mudanças. Se taxa de rastreamento cair inesperadamente, podemos ter acidentalmente bloqueado conteúdo importante.

Erros Comuns de Robots.txt

Erro 1: Bloquear CSS e JavaScript. Se bloquearem `/css/` ou `/js/` em robots.txt, Google não pode rastrear nosso CSS e JavaScript. Sem CSS, Google não pode renderizar nossas páginas apropriadamente. Não bloqueiem CSS ou JavaScript.

Erro 2: Bloquear conteúdo importante. Sempre testem antes de fazer deploy. Um typo como `Disallow: /p` em vez de `Disallow: /staging/` pode bloquear `/products/` acidentalmente.

Erro 3: Usar robots.txt para segurança. Não dependam de robots.txt para proteger dados sensíveis. Páginas sensíveis à segurança deveriam requerer autenticação, não apenas robots.txt. Robots.txt é pública e facilmente contornada.

Erro 4: Robots.txt inconsistente em domínios. Se temos múltiplos domínios, mantemos políticas robots.txt consistentes. Regras acidentalmente diferentes podem causar problemas de eficiência de rastreamento.

Erro 5: Bloquear o sitemap em si. Nunca bloqueiem `/sitemap.xml` em robots.txt. Google precisa rastrear o sitemap para descobrir páginas.

Funcionalidades Avançadas de Robots.txt

Crawl-delay e Request-rate: Estas diretivas abrandam bots. `Crawl-delay: 10` adiciona 10 segundos entre solicitações. `Request-rate: 1/10` permite 1 solicitação por 10 segundos. Usem para bots que sobrecarregam nosso servidor. Google recomenda usar configurações de Search Console em vez destas diretivas.

Diretiva Allow: Permite rastreamento de um caminho específico mesmo se um caminho pai é disallow. Útil para criar exceções. Exemplo: `Disallow: /temp/` mas `Allow: /temp/keep/` permite apenas o subdiretório keep.

A especificação robots.txt do Google documenta todas as diretivas suportadas. A maioria das funcionalidades são raramente necessárias. Fiquem com User-agent, Disallow e Sitemap básicos para a maioria dos sites.

Diretivas Avançadas de Robots.txt

Regras específicas de User-agent permitem diferentes regras de rastreamento para diferentes bots. Podemos especificar regras para Googlebot, Bingbot e outros user-agents separadamente. Isto é útil se queremos que Google rastreie nosso site inteiro mas restringir Bing de acessar certas seções. Especifiquem user-agent no início de cada bloco de regra:

`User-agent: Googlebot` aplica regras apenas ao crawler do Google. `User-agent: *` aplica regras a todos os bots. Regras aplicam ao user-agent específico até a próxima diretiva user-agent. Podemos criar múltiplos blocos de regra para diferentes bots.

Diretivas Crawl-delay e request-rate dizem aos bots com que frequência rastrear. `Crawl-delay: 5` diz ao bot para esperar 5 segundos entre solicitações. Isto reduz carga do servidor. `Request-rate: 1/10` diz ao bot para fazer no máximo 1 solicitação por 10 segundos. A documentação robots.txt do Google detalha todas as diretivas suportadas.

Diretivas de localização de sitemap dizem aos bots onde encontrar nosso sitemap. `Sitemap: https://example.com/sitemap.xml` aponta bots para nosso sitemap XML. Podemos especificar múltiplos sitemaps. Isto é recomendado já que ajuda bots a descobrir todas nossas páginas eficientemente.

Diretiva Clean-param remove parâmetros de URL antes de rastrear. `Clean-param: utm_source&utm_medium https://example.com` diz ao Google para ignorar parâmetros UTM em example.com. Isto previne Google de tratar links rastreados como conteúdo duplicado. Isto é menos comumente usado agora já que Google lida automaticamente com a maioria dos parâmetros de rastreamento.

Testem nosso ficheiro robots.txt no testador robots.txt do Google Search Console. A ferramenta mostra quais URLs seriam bloqueados pelo nosso robots.txt para Googlebot. Isto previne bloqueio acidental de páginas importantes.

Conclusão

Robots.txt é um ficheiro simples mas crítico para gerir rastreamento de motores de busca e proteger a privacidade do nosso site. Um robots.txt bem configurado bloqueia páginas não importantes, economiza orçamento de rastreamento e previne conteúdo duplicado de ser rastreado múltiplas vezes. Robots.txt mal configurado pode acidentalmente bloquear conteúdo importante e destruir nossos rankings.

Sempre testem mudanças robots.txt antes de fazer deploy. Usem o testador do Google Search Console para validar regras. Monitorizem estatísticas de rastreamento mensalmente. Bloqueiem conteúdo não importante e gerem orçamento de rastreamento efetivamente. Usem nosso ferramenta GEO SEO audit para auditar nossa configuração robots.txt e identificar problemas potenciais com rastreabilidade e indexação em todo nosso site.

Frequently questions asked

Robots.txt previne indexação ou apenas rastreamento?

Robots.txt previne rastreamento apenas, não indexação. Uma página bloqueada por robots.txt não pode ser rastreada, mas ainda pode ser indexada se Google encontra a URL em outro lugar (em sitemap, através de links de outros sites). Para prevenir indexação, use tag meta robots noindex em vez disso. Robots.txt é para gestão de orçamento de rastreamento, não controle de indexação.

Robots.txt pode bloquear bots ruins e scrapers?

Robots.txt é uma diretriz, não um firewall. Bots bem-comportados (Google, Bing) respeitam robots.txt. Bots ruins e scrapers ignoram robots.txt completamente. Para bloquear bots ruins, use ferramentas no nível do servidor (bloqueio de IP, rate limiting) ou ferramentas de segurança como Cloudflare. Robots.txt protege nosso site de bots bons que respeitam o padrão, não de atores maliciosos.

Qual é o tamanho máximo para robots.txt?

Google recomenda manter robots.txt abaixo de 500 quilobytes. Ficheiros robots.txt muito grandes podem impactar eficiência de rastreamento. Se nosso robots.txt está crescendo excessivamente, considere consolidar regras, usar agrupamento ou reestruturar nosso site. A maioria dos sites tem ficheiros robots.txt abaixo de 10KB, por isso tamanho raramente é um problema.