Robots.txt na indexação de sites
Existe um arquivo especÃfico que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. É o “robots.txt“. Ele deve ser colocar no diretório raiz do site e é o primeiro arquivo que os bots de busca procuram em um site. Nele você pode escolher os diretórios e arquivos que você deseja excluir das ferramentas de busca. O uso mais comum é evitar indexação de páginas logadas ou que possuam arquivos privados.
Este é um exemplo de arquivo que impediria a indexação do site inteiro por todas as ferramentas de busca:
User-agent: *
Disallow: /
O asterisco significa “tudo”, ou seja, todos os bots de busca devem seguir as regras abaixo.
Um exemplo prático seria evitar a indexação de pastas do seu site que tem programas ou partes privadas. O exemplo abaixo evitaria a indexação de quatro diretórios.
User-agent: *
Disallow: /cgi-bin/ #scripts e programas
Disallow: /logado/
Disallow: /tmp/ #parte de testes
Disallow: /private/ #arquivos da empresa
O sinal de tralha serve para comentários como informar o motivo da exclusão. O comentário não influencia em nada o bot, porém serve para facilitar o entendimento do motivo da exclusão para a equipe que administra o site.
Se um site não tiver este arquivo, a ferramenta de busca irá indexar normalmente o seu site. Se preferir, você pode criar o arquivo “robots.txt” que permite a indexação total:
User-agent: *
Disallow:
Você pode criar regras especÃficas para cada bot de busca. Para isto basta trocar o asterisco do User-agent pelo nome do bot. Cada bot ou spider tem um nome especÃfico. Eles também são conhecidos como agentes. O agente do Google é o Googlebot, o do Yahoo! é o Slurp e o da MSN Busca é o MSNBot. Existem bots também para imagens por exemplo. O do Google é o Googlebot-Image, o do Yahoo é o yahoo-mmcrawler e o da MSN Busca o psbot. Um exemplo para excluir a indexação do Google seria:
User-agent: Googlebot
Disallow: /
Com isto, nada do site seria indexado pelo Google, mas outras ferramentas poderiam indexar normalmente.
O Robots.txt é extremamente útil, pois permite a retirada automatizada de páginas e do conteúdo de um site das páginas de resultado dos sites de busca. Ele também é bastante flexÃvel permitindo que várias regras sejam aplicadas no mesmo arquivo garantindo comportamento distinto entre os bots.
Himler Auguste Strabbs
novembro 12, 2008 @ 3:02 pm
No caso do Google é melhor especificar o robot ou ele sai indexando tudo.
sam
janeiro 21, 2009 @ 9:27 am
Legal cara… manêro essa parada do Robots..
Noel Reis
janeiro 27, 2009 @ 6:20 pm
Parabéns, está ótima a presentação do texto.
Sandra de Souza
janeiro 27, 2009 @ 6:22 pm
Eu não conhecia este detalhe, depois de colocar em meu site comecei aparecer nas buscas.
Muito Legal
Cristiano pintor
fevereiro 8, 2009 @ 10:52 pm
Tenho tentado de todas as formas melhorar o indexamento do meu blog, criei ele para expor meus trabalho de pintura e textura na construção civil, esse negocio de seo da certo mesmo, depois que passei a frequentar o marketingdebusca, o numero de usuários no meu blog aumentou, viva ao google, PagRak para nós. valeu
Fernando Maciel
abril 6, 2009 @ 10:02 am
Olá..gostei muito do site e li todos os comentarios…
Soh me ficou uma duvida…eu devo criar esse arquivo robot no bloco de notas por exemplo? no word? ou aonde?
Obrigado!
Paulo Rodrigo Teixeira
abril 6, 2009 @ 5:27 pm
Fernando,
Coloque o robot.txt em um arquivo do bloco de notas (notepad) mesmo.
Abração,
Edson
maio 11, 2009 @ 9:00 am
olá amigo, eu tenho uma dúvida, e gostaria que vc me desse uma dica!
Eu uso o plugin da pagenavi no meu site da wordpress!
Com isso todos os link da paginavi estava sendo indexado pelo google! ex do link /page/
Com isso, gerou um monte de paginas duplicadas, fui descobrir o robots.txt um tempo depois, onde bloquiei para não indexar esses links!
Mas, porém, todavia, ainda tem varias paginas que já tinha cido indexado antes que eu tivesse bloqueado, e isso está causando uma série de erros, com meta descrição duplicada, conteúdo duplicado e outros!
Gostaria de saber como faço para retirar estes links das pesquisas do google!
Já tentei remover url pelo webmaster da google, mas lá só apaga links que estão fora do ar!
Por favor preciso de sua ajuda. obrigado!
Estarei a espera!
Robots.txt para WordPress - Blog do yogodoshi
maio 29, 2009 @ 5:01 pm
[…] Pra quem não sabe muito bem o que é o robots.txt, pra que ele serve ou qual seu benefÃcio para SEO, sugiro ler o post: Robots.txt na indexação de sites. […]
Zeca
junho 8, 2009 @ 3:50 pm
No meu Robots.txt tem o comando para o bloqueio “/page”. Mas ao verificar no google, as páginas não foram bloqueadas. O que será que pode ter ocorrido?
Ioan Bratu
julho 23, 2009 @ 12:39 pm
se eu colocar LITERALMENTE isso, funciona?
# Alexa
User-agent: ia_archiver
Disallow:
# Ask Jeeves
User-agent: Teoma
Disallow:
# Google
User-agent: googlebot
Disallow:
# MSN
User-agent: msnbot
Disallow:
# Yahoo!
User-agent: Slurp
Disallow:
# Abacho
User-agent: AbachoBOT
Disallow:
# Baidu
User-agent: baiduspider
Disallow:
# Fireball
User-agent: fireball
Disallow:
# ObjectsSearch
User-agent: ObjectsSearch
Disallow:
# Szukacz
User-agent: szukacz
Disallow:
# Voila.fr
User-agent: VoilaBot
Disallow:
# Walhello
User-agent: Appie
Disallow:
# Yandex
User-agent: Yandex
Disallow:
# Others
User-agent: *
Disallow:
As 20 melhores ferramentas de SEO para usar e analisar seu blog! | Análise Blogueira
agosto 11, 2009 @ 4:59 pm
[…] 12. Robotstxt.org: ferramenta perfeita para criar, gerir e analisar o robots.txt de seu blog, essencial para bloquear determinadas páginas de seu blog aos robôs dos buscadores, a fim de evitar conteúdo duplicado, principalmente. Veja mais sobre ele aqui. […]
Marcos Paulo
setembro 27, 2009 @ 1:34 pm
Realmente muito bom o artigo. Estou desenvolvendo um site novo e irei usar estas técnicas. Obrigado ;D
Designer Demétrios
setembro 29, 2009 @ 10:39 am
Quero bloquear um subdomÃnio, como faço isso?
Paulo Rodrigo Teixeira
setembro 29, 2009 @ 12:59 pm
Ioan Bratu
O último comando já resolve tudo.
Designer Demétrios
Crie um robots na raiz deste subdomÃnio. Para o Google, são sites diferentes.
Ferramentas para Webmaster
outubro 12, 2009 @ 11:26 am
[…] O que é Robots ? :: Gerador de Robots :: Várias ferramentas de SEO :: Outras […]
Vanessa
novembro 17, 2009 @ 3:20 pm
Olá
Muito bom o artigo.
Só tenho uma dúvida, é possÃvel utilizar expressões regulares no robot.txt?
Desta forma eu conseguiria gerar um arquivo robot para vários sites do portal.
Obrigada
Carol
fevereiro 8, 2010 @ 1:39 am
Como remover apenas um palavra que os robos encontram em minha pagina sendo que não existe?
Marcelo
março 4, 2010 @ 3:34 pm
Parabens pela materia.
O site todo é muito bom.
Fernando Santos
março 9, 2010 @ 5:38 pm
Marcelo,
Poderia me indicar como que eu bloqueio acesso a um subdominio de meu site?
Por exemplo:
Meu site é http://www.meusite.com.br
Quero bloquear teste.meusite.com.br
Agradeço sua ajuda.
Att.,
Fernando
RBoni
março 14, 2010 @ 1:49 am
Obrigado. Aprenderei mais passando por aqui.
Julia R.
abril 20, 2010 @ 2:56 pm
Não captei 100%
Eu quero impedir que os robots indexem minha pasta components mas dentro da pasta components tem a pasta ads e alguns arquivos da pasta ads…
Eu quero que ele index a pasta ads mas nao quero que ele index o arquivo config.php e a pasta img que está dentro da pasta ads.
Pergunta:
Se eu usar o comando allow para a pasta ads ele fará index do arquivo config.php?
O arquivo realmente tem algum perigo de receber index? (tem configuracoes de usuarios e anúncios nele).
Deu para entender minha (meu problema) pergunta? ^^
Pedro
junho 9, 2010 @ 3:58 pm
valeu mesmo pelo post
alguns comentários também foram muito úteis
obrigado por compartilhar a informação, continue o bom trabalho
abração.
Robots.txt na indexação de sites : Alexandre Rudalov – Design e Desenvolvimento de sites, hotsites, layouts e aplicações – Freelance Design
julho 17, 2010 @ 11:15 am
[…] Artigo extraÃdo de: Marketing de Busca […]
Daniel Bertolino - Designer
agosto 5, 2010 @ 4:11 pm
Muito bom, pois nos sites que faço utilizo muito dessa técnica e que auxilia muito na indexação correta do site, filtrando o que eu quero que o Google mostre ou não.
Parabéns pelo site…Valeu!
Carlos
dezembro 28, 2010 @ 8:48 am
Só recentemente conheci o robot.txt. Encontrei alguns artigos na net mas os textos foram escritos para marcianos.
Em contrapartida, o seu é de uma clareza espantosa.
Parabéns!
Diogo
janeiro 9, 2011 @ 8:42 am
Parabéns cara, este seu post me ajudou muito a criar o meu robots.txt.
Ótimo 2011, grande abraço
Pedro Agle
janeiro 31, 2011 @ 3:29 am
Bom Dia,
Gostaria de saber como faço para bloquear a indexação do Google a uma página onde aparece dados pessoais meus??, aguardo
Att
Pedro Agle
Wilson
fevereiro 21, 2011 @ 5:03 pm
E interessante pois gostei de saber como faço para bloquear as paginas da indexção do google e outros buscadores
Carlos Alberto
fevereiro 24, 2011 @ 10:07 am
Cara, muito boa sua ‘matéria’, simples e facil, muito bom mesmo!
Você poderia falar um pouco sobre SITEMAP? E tbm Links de Site, aqueles pequenos links que aparecem abaixo do seu site na busca do google, posso determiná-los, dizer ao google quais eu quero?
Se vc conhecer as respostas ficarei muito grato. Vlw
MATÉRIA SHOW!!!
wells
junho 1, 2011 @ 11:46 am
Uma duvida. Alem de colocar o arquivo robots.txt no raiz do servidor tambem tenho que colocar alguma coisa nessa tag:
Voce poderia me esclarecer isso?
wells
junho 1, 2011 @ 11:49 am
Uma duvida. Alem de colocar o arquivo robots.txt no raiz do servidor tambem tenho que colocar alguma coisa na tag robots ?
Voce poderia me esclarecer isso?
Diego Fernandes
dezembro 30, 2011 @ 12:30 pm
Muito bom o post. Acabei de usar o gerador de robots.txt do site e foi muito prático.
Parabéns =D
Maria
janeiro 1, 2012 @ 11:45 pm
Eu fico confusa pois a pasta difere do URL, não entendo como o google separa isso.
Nathalia
maio 8, 2013 @ 10:15 am
Estou com uma duvida, eu posso criar este arquivo pelo próprio notepad?
Abel
julho 13, 2013 @ 5:53 am
Olá , gostei da forma como foi explicado, vou seguir seus conselhos pra melhorar a posição do meu site, junto aos sites de buscas.
IgorHerbert
agosto 30, 2013 @ 12:46 am
Excelente!!!