Um arquivo robots.txt armazenado na raiz do seu site informará aos robôs da Web, como os mecanismos de busca, quais diretórios e arquivos eles podem rastrear. É fácil usar um arquivo robots.txt, mas há algumas coisas que você deve lembrar:
- Robôs da web Blackhat irão ignorar seu arquivo robots.txt. Os tipos mais comuns são robôs de malware e robôs que procuram endereços de e-mail para coletar.
- Alguns novos programadores escreverão robôs que ignoram o arquivo robots.txt. Isso geralmente é feito por engano.
- Qualquer pessoa pode ver seu arquivo robots.txt. Eles são sempre chamados de robots.txt e são sempre armazenados na raiz do site.
- Por fim, se alguém se vincular a um arquivo ou diretório excluído pelo arquivo robots.txt de uma página que não seja excluída pelo arquivo robots.txt, os mecanismos de pesquisa poderão encontrá-lo mesmo assim.
Não use arquivos robots.txt para ocultar qualquer coisa importante. Em vez disso, você deve colocar informações importantes por trás de senhas seguras ou deixá-las completamente fora da web.
Como usar esses arquivos de exemplo
Copie o texto da amostra mais próxima do que você deseja fazer e cole no arquivo robots.txt. Altere os nomes dos robôs, diretórios e arquivos para corresponder à sua configuração preferida.
Dois arquivos básicos do Robots.txt
Agente de usuário: *Não permitir: / Este arquivo diz que qualquer robô ( Agente de usuário: *) que acessa deve ignorar todas as páginas do site ( Não permitir: /). Agente de usuário: *Não permitir: Este arquivo diz que qualquer robô ( Agente de usuário: *) que acessa, é permitido visualizar todas as páginas do site ( Não permitir:). Você também pode fazer isso deixando o arquivo robots.txt em branco ou não tendo um no seu site. Agente de usuário: *Não permitir: / cgi-bin /Não permitir: / temp / Este arquivo diz que qualquer robô ( Agente de usuário: *) que acessa deve ignorar os diretórios / cgi-bin / e / temp / ( Não permitir: / cgi-bin / não permitir: / temp /). Agente de usuário: *Não permitir: /jenns-stuff.htmNão permitir: /private.php Este arquivo diz que qualquer robô ( Agente de usuário: *) que acessa deve ignorar os arquivos /jenns-stuff.htm e /private.php ( Não permitir: /jenns-stuff.htm Não permitir: /private.php). User-agent: Lycos / x.xNão permitir: / Este arquivo diz que o bot Lycos ( User-agent: Lycos / x.x) não é permitido acessar em qualquer lugar no site ( Agente de usuário: *Não permitir: /User-agent: GooglebotNão permitir: Este arquivo primeiro proíbe todos os robôs como fizemos acima e, em seguida, deixa explicitamente o Googlebot ( User-agent: Googlebot) ter acesso a tudo ( Embora seja melhor usar uma linha de agente do usuário muito abrangente, como User-agent: *, você pode ser tão específico quanto desejar. Lembre-se de que os robôs leram o arquivo em ordem. Então, se as primeiras linhas disserem que todos os robôs estão bloqueados de tudo e, mais tarde, no arquivo, diz que todos os robôs têm acesso a tudo, os robôs terão acesso a tudo. Se você não tiver certeza se escreveu o arquivo robots.txt corretamente, poderá usar as Ferramentas do Google para webmasters para verificar seu arquivo robots.txt ou escrever um novo. Proteja Diretórios Específicos dos Robôs
Proteger páginas específicas de robôs
Impedir que um robô específico acesse seu site
Permitir apenas um acesso específico ao robô
Combine várias linhas para obter exatamente as exclusões desejadas