O que faz um ficheiro robots.txt?

Um ficheiro robots.txt diz aos rastreadores dos motores de busca quais páginas podem e não podem aceder no seu site. Controla o comportamento de rastreamento mas não impede que as páginas sejam indexadas se estiverem ligadas noutros locais.

Um robots.txt errado pode prejudicar o meu SEO?

Com certeza. Um robots.txt mal configurado pode bloquear acidentalmente o Google de rastrear as suas páginas mais importantes, fazendo-as desaparecer completamente dos resultados de pesquisa. Teste sempre antes de implementar.

Devo bloquear os rastreadores IA no robots.txt?

Depende dos seus objetivos. Bloquear rastreadores IA como o GPTBot impede que o seu conteúdo treine modelos de IA mas pode também reduzir a sua visibilidade nos resultados de pesquisa IA. Considere cuidadosamente o compromisso.

Gerador de Robots.txt - Ferramenta SEO gratuita

Mais de 25% dos sites têm ficheiros robots.txt mal configurados, levando ao bloqueio acidental de páginas críticas pelos motores de busca.

O seu ficheiro robots.txt é o primeiro documento que os rastreadores dos motores de busca leem quando visitam o seu site. Uma única diretiva mal colocada pode impedir o Google de indexar as suas páginas mais importantes, ou pior, expor URLs sensíveis que pretendia manter privados. O Gerador de Robots.txt sorank.com ajuda-o a criar ficheiros robots.txt perfeitamente estruturados em segundos, garantindo que o seu orçamento de rastreamento está otimizado e que a arquitetura do seu site é corretamente comunicada a todos os principais motores de busca.

O que é um ficheiro Robots.txt e por que é importante para o SEO?

Um ficheiro robots.txt é um ficheiro de texto simples colocado na raiz do seu site (ex. https://example.com/robots.txt) que fornece instruções aos rastreadores web sobre quais páginas ou secções do seu site devem ou não ser rastreadas. Segue o Robots Exclusion Protocol, um padrão que rege o comportamento dos rastreadores desde 1994.

Embora o robots.txt não controle diretamente a indexação (esse é o papel das tags meta robots e das tags canónicas), desempenha um papel crucial na gestão do orçamento de rastreamento. Para sites grandes com milhares de páginas, dizer aos rastreadores para ignorarem áreas de baixo valor, como painéis de administração, conteúdo duplicado ou ambientes de teste, garante que as suas páginas mais importantes sejam rastreadas e indexadas mais rapidamente.

Principais razões pelas quais o robots.txt importa:

Otimização do orçamento de rastreamento, Direciona os rastreadores para as suas páginas de alta prioridade em vez de desperdiçar recursos em URLs irrelevantes
Redução da carga do servidor, Impede que bots agressivos sobrecarreguem o seu servidor com pedidos desnecessários
Proteção da privacidade, Bloqueia os rastreadores de aceder a ferramentas internas, sites de teste ou diretórios sensíveis
Descoberta do sitemap, Aponta os motores de busca para o seu sitemap XML para um rastreamento mais eficiente

Compreender as diretivas do Robots.txt: a referência completa

Um ficheiro robots.txt utiliza uma sintaxe simples baseada em algumas diretivas principais. Dominar estas diretivas é essencial para um controlo adequado do rastreamento:

User-agent: Especifica a qual rastreador as regras se aplicam. Use * para todos os rastreadores, ou aponte para bots específicos como Googlebot, Bingbot ou GPTBot.

Disallow: Diz aos rastreadores para não acederem a caminhos específicos. Por exemplo, Disallow: /admin/ bloqueia todo o diretório de administração.

Allow: Substitui uma regra Disallow para caminhos específicos dentro de um diretório bloqueado. Útil para controlo granular, como permitir /admin/public-page enquanto bloqueia o resto de /admin/.

Sitemap: Declara a localização do seu sitemap XML. Esta diretiva é independente do rastreador e ajuda os motores de busca a descobrir todos os seus URLs indexáveis.

Crawl-delay: Define um atraso (em segundos) entre pedidos sucessivos do rastreador. Suportado pelo Bing e Yandex mas ignorado pelo Google, que se baseia nas configurações da Search Console.

Exemplo de um ficheiro robots.txt bem estruturado:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /search?
Allow: /admin/public/

User-agent: GPTBot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Como usar o Gerador de Robots.txt da Sorank

O nosso gerador gratuito de robots.txt simplifica o processo de criação com uma interface intuitiva:

Selecione os seus user-agents, Escolha entre rastreadores comuns (Googlebot, Bingbot, GPTBot, etc.) ou use o caráter universal * para regras universais
Defina as suas regras Disallow, Introduza os caminhos que deseja bloquear do rastreamento, como /wp-admin/, /staging/, ou parâmetros de consulta como /search?
Adicione exceções Allow, Se precisar de permitir o acesso a páginas específicas dentro de diretórios bloqueados, adicione regras Allow
Inclua o URL do seu sitemap, Introduza a localização do seu sitemap XML para que os rastreadores possam descobri-lo automaticamente
Configure o Crawl-delay opcional, Configure valores de atraso para os rastreadores suportados se o seu servidor precisar de limitação
Gerar e descarregar, Copie o robots.txt gerado ou descarregue-o, depois carregue-o para o diretório raiz do seu site

Erros comuns em Robots.txt que prejudicam o SEO

Mesmo os webmasters experientes cometem erros em robots.txt que podem afetar gravemente a sua visibilidade nas pesquisas:

1. Bloquear ficheiros CSS e JavaScript: O Google precisa de renderizar as suas páginas para compreender o seu conteúdo. Bloquear os diretórios /css/ ou /js/ impede o Googlebot de renderizar as suas páginas, o que pode prejudicar significativamente o seu posicionamento.

2. Usar robots.txt para ocultar páginas do índice: Uma diretiva Disallow não remove uma página do índice do Google, apenas impede o rastreamento. Se outros sites se ligarem a uma página bloqueada, o Google pode igualmente indexar o URL (mostrando-o sem fragmento). Use tags meta noindex em alternativa.

3. Bloquear acidentalmente todo o site: Um simples Disallow: / em User-agent: * bloqueia todos os rastreadores de todo o seu site. Verifique sempre as suas regras de caráter universal.

4. Esquecer as barras finais: Disallow: /admin bloqueia qualquer URL que comece com /admin, incluindo /administration. Use Disallow: /admin/ para bloquear apenas o diretório.

5. Não incluir uma diretiva Sitemap: Embora não obrigatório, declarar o seu sitemap em robots.txt garante que todos os motores de busca possam descobri-lo, mesmo que não o tenha enviado através das respetivas ferramentas para webmasters.

6. Regras em conflito: Quando as regras Allow e Disallow se sobrepõem, a regra mais específica tem precedência na implementação do Google. Teste sempre a sua configuração para evitar bloqueios não intencionais.

Boas práticas de Robots.txt para diferentes plataformas CMS

WordPress: Bloqueie /wp-admin/ mas permita /wp-admin/admin-ajax.php (necessário para a funcionalidade do front-end). Nunca bloqueie /wp-content/uploads/ pois contém os seus ficheiros de média. Considere bloquear /wp-includes/ para scripts não essenciais.

Webflow: O Webflow gera automaticamente um robots.txt, mas pode personalizá-lo nas configurações do seu site. Certifique-se de que não está a bloquear as suas páginas de coleção nem os caminhos de template que geram conteúdo dinâmico.

Shopify: O Shopify tem um robots.txt predefinido que bloqueia caminhos internos como /admin, /cart, /checkout e /orders. Desde 2021 pode personalizá-lo através do template de tema robots.txt.liquid.

Next.js / React SPA: Certifique-se de que o seu robots.txt é servido como ficheiro estático a partir do diretório público. Para aplicações renderizadas no servidor, verifique se o Googlebot pode aceder a todos os endpoints de API necessários para renderizar conteúdo.

Gestão de rastreadores IA com Robots.txt

Com a ascensão dos modelos de IA que fazem scraping de conteúdo web, o robots.txt ganhou nova importância para controlar o acesso dos rastreadores IA:

GPTBot, rastreador da OpenAI para recolha de dados de treino
ChatGPT-User, rastreador da OpenAI para funcionalidades de navegação ao vivo
Google-Extended, rastreador de dados de treino IA do Google (separado do Googlebot)
anthropic-ai, rastreador web da Anthropic
CCBot, bot do Common Crawl, utilizado por muitos conjuntos de dados de treino IA

Para bloquear todos os rastreadores IA enquanto permite os motores de busca:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: *
Allow: /

Testar e validar o seu ficheiro Robots.txt

Após gerar o seu ficheiro robots.txt, valide-o sempre antes de implementar:

Google Search Console, Use a ferramenta "Testador robots.txt" (nas configurações de rastreamento) para verificar erros de sintaxe e testar URLs específicos contra as suas regras
Bing Webmaster Tools, Oferece um analisador de robots.txt que mostra como o Bingbot interpreta o seu ficheiro
Teste no browser, Visite oseudominio.com/robots.txt diretamente para verificar se está acessível e corretamente formatado
Análise de ficheiros de registo, Monitorize os logs do seu servidor após a implementação para confirmar que os rastreadores respeitam as suas diretivas

Lembre-se que os motores de busca guardam em cache o seu ficheiro robots.txt e atualizam-no periodicamente (tipicamente a cada 24 horas). Após fazer alterações, pode solicitar um novo rastreamento através da Google Search Console para atualizações mais rápidas.

Use o Gerador de Robots.txt Sorank para criar um ficheiro corretamente formatado em segundos, sem necessidade de conhecimentos de programação. Proteja o seu orçamento de rastreamento, gira o acesso dos bots e garanta que as páginas mais valiosas do seu site recebem a atenção que merecem dos motores de busca.