O Robots.txt ideal para o Wordpress | BrPoint


Publicidade 

O Robots.txt ideal para o Wordpress

r2d2

O arquivo robots.txt controla o que os robôs dos mecanismos de busca podem ou não indexar.

A maioria dos mecanismos de busca seguem corretamente o que está descrito no mesmo e o funcionamento é bem simples..

O padrão do arquivo é:

User-agent:
Disallow:

Onde depois de User-agent, você coloca o nome do robô que deseja barrar e em Disallow, você informa o arquivo ou diretório que deseja barrar.

O comando Allow, pode ser usado para criar exceções ao Disallow.

No lugar do nome do robô, você pode colocar * para indicar que a regra se aplica a todos e em Disallow, quando você bloqueia um diretório, estará bloqueando todos os arquivos dentro dele.

Pensando nessas regras, resolvi criar um arquivo robots.txt que não permitisse a indexação de nenhuma URL que pudesse prejudicar a indexação dos artigos, em blogs que utilizam o Wordpress.

CODE:
User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /tags/

User-agent: Googlebot
# remover scrips css e afins
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

# qualquer endereco que contenha ?
Disallow: /*?*

# permitir o adsense em qualquer url
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

#Sitemap

Sitemap: http://www.brpoint.net/sitemap.xml

Este arquivo, bloqueará todos os diretórios que não devem ser indexados, além de vários arquivos que podem carregar conteúdo duplicado, diluindo o valor dos artigos.

Caso você use uma estrutura de URLs diferente das que eu utilizo, verifique se o arquivo não está bloqueando páginas válidas.

Exemplos:

  • Para quem usa o formato padrão do Wordpress, precisa remover a regra Disallow: /*?*.
  • Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$
  • Etc...

Em caso de dúvidas, pergunte nos comentários.

No final do arquivo, tomei cuidado para incluir o robô do AdSense, para que páginas não indexadas exibam os anúncios corretamente.

Inclui, também a chamada ao Sitemap que passou a ser aceito no robots.txt pelos maiores mecanismos de busca.

Compare Preços de: Camera Digital, MP3 Player, iPod, Celular, Livros, CD, DVD, Monitor, TV, Notebook, Wii, PS2, PS3

Compartilhe e Guarde: Esses links facilitam a inclusão deste artigo nas redes sociais. Compartilhe.
  • Rec6
  • StumbleUpon
  • ueba
  • linkk
  • dihitt
  • linkloko
  • websapiens
  • linkto
  • Technorati
  • Simpy
  • del.icio.us
  • Blue Dot

Artigos relacionados







57 Comentários »

Comentário por Pedro
2007-05-21 18:29:49

Estava mesmo à procura de um destes já meio feito...
Obrigado

 
Comentário por Diego Xavier
2007-05-21 19:51:05

Muito bom, parabéns pelos tutoriais, fazendo de tudo para melhorar a blogosfera!

 
Comentário por dudu
2007-05-21 20:07:33

Uau!!! Gracias amigo!

Nada como um código já mastigado.
Faz algum tempo que eu queria criar um robots.txt para acabar com a indexação dos feeds mas não sabia por onde começar.

Comentário por Anonymous
2007-10-09 21:05:37

mentira

 
 
Comentário por Ostrock Recebendo notificações por e-mail
2007-05-22 08:16:20

Como seria um robots.txt para o blogger?

 
Comentário por BrPoint Recebendo notificações por e-mail
2007-05-22 11:21:54

Pedro, Diego e Dudu, obrigado.

Ostrock, até onde sei não é possível fazer isso no blogger.

Abraços

 
Comentário por Ale Rocha
2007-05-22 17:51:23

Bruno, mais uma vez parabéns pela iniciativa.

Notei que, no diretório de instalação do Poltrona.TV no Bluehost, não tenho alguns diretórios como o /tag/ e o /tags/. Sendo assim, posso tirá-los do corpo do robots.txt, correto?

Outra coisa: uso o Feedburner e habilitei a opção noindex lá. Mesmo assim acha nessária a linha Disallow: /feed/??

Não entendi muito bem essas recomendações:

# Para quem usa o formato padrão do Wordpress, precisa remover a regra Disallow: /*?*.

# Para quem usa o index.php no endereço dos artigos, deve remover a regra Disallow: /*.php$

Eu uso a estrutura: http://www.poltrona.tv/postname. O que eu deveria fazer?

Valeu pelas respostas. Creio que devem ser de grande valia para outros leitores também. Abraços.

 
Comentário por Ostrock Recebendo notificações por e-mail
2007-05-22 19:53:23

Obrigado pela resposta, vou aproveitar e questionar outra coisa:

Existe alguma maneira de indicar no site quais partes não devem ser indexadas?

Vi em um post anterior que o yahoo criou uma classe css para isto, exitee algo do tipo para o google e o SE da Microsoft?

Pergunto isso por que não quero, por exemplo, que eles indexem minha barra de navegação, minhas tags e ouras coisas do tipo que não são propriamente um conteúdo.

Obrigado pela atenção.

 
Comentário por Rafael Arcanjo
2007-05-23 10:20:23

Bruno,

Seria interessante também desabilitar o /feed/ de todos os artigos. Como eu conseguiria isto ?

*./feed/ ?

 
Comentário por Rafael Arcanjo
2007-05-23 10:24:07

No meu robots eu inclui também as seguintes linhas, não me lembro a referência...

Disallow: /wp-rss.php
Disallow: /wp-rss2.php
Disallow: /wp-rdf.php
Disallow: /wp-atom.php

 
Comentário por Wilson
2007-05-23 15:48:07

Um dúvida:

Não tenho acesso à pasta blog do site http://blog.wilson.com.pt porque é um ad-on...

Para desabilitar o /fedd será que posso colocar no http://www.wilson.com.pt /robots.txt

Disallow: http://blog.wilson.com.pt/feed/

 
Comentário por BrPoint Recebendo notificações por e-mail
2007-05-23 16:14:38

Ale, o que você não tiver, pode remover sem problemas.

As instruções que dei não afetarão seu esquema de URLs.

Quanto ao feed, se você já usa o noindex, pode retirar.

Ostrock, até o momento, só o Yahoo implementa esta funcionalidade.

Rafael, se você usar a regra:

Disallow: /*feed*

Resolverá o problema, porém, qualquer página ou artigo que tenha feed no nome também será bloqueada.

Uma opção para os demais arquivos pode ser a regra:

Disallow: /wp-*.php$

Isso removeria todas as páginas do próprio wordpress.

Wilson, não, o Google interpreta subdomínios como domínios diferentes, precisa estar na raiz do subdomínio.

Abraços

 
Comentário por André
2007-05-25 16:52:09

Será que não seria interessante usar também:

Disallow: /category/

?

Nas páginas de categorias também há o conteúdo (duplicado) dos posts.

 
2007-05-26 08:32:04

[...] um modelo de robots.txt para Wordpress no BrPoint, mas achei que faltaram as categorias e o arquivo. Descobri algo interessante nos [...]

 
Comentário por Bira Jones
2007-05-30 15:39:30

Como faço pra colocar o robots.txt pra funcionar no meu blog? Tenho que fazer um upload desse arquivo? Desculpe pela pergunta básica, mas essas coisas ainda me parecem complicadas. Obrigado.

 
Comentário por Ostrock Recebendo notificações por e-mail
2007-05-31 08:19:49

Migrei meu blog para o wordpress, como faço para inserir este robots.txt? Estou usando o próprio WP, é posível fazer isso?

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-05-31 14:28:22

André, sim, é uma boa opção.

Eu não havia colocado, pois estava usando excerpts nas categorias, ao invés do artigo inteiro.

Bira, sim, basta criar um arquivo com o nome robots.txt na raiz do blog.

Ostrock, wordpress.com ou instalado?

Se for o .com não tem como se for o intalado, como aqui, basta criar um arquivo com este nome na raiz do blog.

Abraços

 
Comentário por Matt Recebendo notificações por e-mail
2007-06-03 18:13:09

Sempre tive uma dúvida, se eu tenho o sitemap já adicionado pelo sistema de sitemaps do google, eu preciso ainda me preocupar com o robots.txt ???

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-06-04 11:46:01

Matt, essa linha é mais para o Yahoo e MSN, que também usam o Sitemaps, entendem a linha no robots.txt, mas não possuem um lugar para que você informe, como faz o Google.

Abraço

 
2007-06-17 15:28:56

[...] uma técnica do BrPoint e, um dia depois, elas viraram 2X+Y. A técnica usada foi a adaptação do robots.txt para evitar diretórios inúteis e conteúdo duplicado no [...]

 
Comentário por Leonardo Recebendo notificações por e-mail
2007-06-22 18:10:52

Excelente artigo.

Agora, que tal um artigo sobre segurança no WP ?

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-06-22 18:52:13

Leonardo, não há tanta coisa a ser feita nessa área.

Seria manter o WP atualizado (que raramente faço) e o servidor seguro.

Abraço

 
2007-06-23 14:12:33

[...] Como otimizar o seu Robots.txt: O Bruno Alves deu a dica e o retorno foi garantido. Saiba como configurar o seu robots.txt de [...]

 
Comentário por Alex Recebendo notificações por e-mail
2007-06-24 09:38:08

Fiz a mudança hoje.
Vamos ver em alguns dias o resultado.
Obrigado.

 
2007-06-25 10:04:08

[...] fui no post do Bruno Alves no brpoint.net e procurei seguir as [...]

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-06-25 11:02:26

Alex, depois nos conte o resultado.

Abraço

 
Comentário por Cristian Recebendo notificações por e-mail
2007-06-25 12:14:45

Você poderia fazer a gentileza de me indicar um artigo sobre simemap, qual plugin usar para criar o meu? Sou blogger iniciante. Muito obrigado pelas dicas do Robots.txt

 
2007-06-26 16:21:23

[...] concluir, desde que o BrPoint o robots.txt ideal, e eu fiz a mudança sugeridas, as visitas desse site caíram absurdamente. Isso já faz quase um [...]

 
Comentário por William
2007-06-28 22:06:37

Tava pesquisando no Google sobre os Robots.txt e me deparei com este site http://www.marketingdebusca.com.br/robots-txt/ ao que indica ele cria o um arquivo Robots.txt personalizado, podendo escolher os rôbos de busca e escolher os diretórios para serem bloqueados

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-06-29 15:02:13

Cristian, uso um polugin do WP para fazer isso, o Sitemap Genarator.

William, fazendo na mão é possível ter mais controle sobre o arquivo, para quem precisa de um arquivo bem básico, pode ser uma boa ferramenta.

Abraços

 
Comentário por Erivelton L. Recebendo notificações por e-mail
2007-07-10 00:44:25

Ô Bruno, quer dizer que se eu criar um arquivo destes os buscadores não vão mais indexar a páginas de feeds?

Outra coisa, o meu blog tem poucas visitas vindas do yahoo, qual o porquê disto? Isto ocorre com você também.

Não é verdade que o Yahoo tem mais visitas que o Google?

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-07-11 02:13:06

Evirelton, esse arquivo dirá ao Google para não seguir o endereço do feed, mas se ele já estiver indexado é preciso removê-lo.

Nas buscas, não, o Google tem acesso muito maior.

Abraço

 
Comentário por TioSolid
2007-07-14 18:57:05

Bruno. uma duvida
utiilizo o webmasters do google, e gostaria de saber uma coisa: coloquei meu sitemap e meu feed como fontes de sitemap no meu webmasters, porem como o .php do feed esta bloqueado, ele me retornou um erro.. devo desbloquear os feeds para q o webmasters possa acessa-lo? pensei nisso pois imagino que meu site map tenha q ser recriado toda vez q eu fizer um novo post, isso nao eh correto?

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-07-17 10:37:54

TioSolid, use o plugin para criação de sitemap do WP e coloque só ele no Webmaster tools, funciona perfeitamente.

Abraço

 
2007-07-20 16:04:14

[...] Por descuido, desleixo ou até mesmo total falta de conhecimento, muitos Webmasters, que guardam arquivos pessoais em servidores on line, esquecem que o rôbo do Google vai passar por lá e indexar aquele conteúdo caso ele não esteja marcado no robots.txt. [...]

 
2007-07-24 11:36:08

[...] freqüência, recebo a seguinte reclamação: Bruno, desde que implementei o robots.txt que você sugeriu, minhas visitas vindas do Google despencaram, segui todas as dicas do artigo, inclusive adaptando [...]

 
Comentário por Charles Recebendo notificações por e-mail
2007-07-31 13:31:07

Bruno, interessante seu artigo e exemplos sobre robots.txt.
Mas, tenho uma pequena dúvida. Meu site está atualmente em construção e tenho que deixar muita coisa online, mas não gostaria (neste momento) que os robôs varressem o site (feito em WordPress).
Pensei em criar um robots.txt assim (na raiz):
User-agent: *
Disallow: /
Daqui a algum tempo, quando o site estiver pronto, pretendo criar um novo robots.txt (baseado no exemplo deste seu artigo), daí abrindo a porta para os robôs (quanto mais indexarem melhor).
Minha dúvida é: meu primeiro robots.txt não desviaria definitivamente os buscadores? Como dizer ao Google (e outros) "agora entrem de novo no meu site/robots.txt"?

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-07-31 16:19:50

Charles, o Google (o único que tenho certeza da freqüência), relê o robots.txt uma vez por dia.

Quando o blog estiver pronto, altere o robots, e use o plugin sitemap para avisar ao Google que começou a atualizar o blog.

Vai funcionar sem problemas.

Abraço

 
Comentário por Ostrock Recebendo notificações por e-mail
2007-07-31 22:40:33

tem como adicionar um robots através do "@import" da mesma forma que se faz para CSS?

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-08-01 15:39:37

Ostrock, não, precisa ser um arquivo.

Abraço

 
Comentário por Anny Rose Recebendo notificações por e-mail
2007-08-03 06:22:03

Bruno, só por curiosidade, resolvi testar o robots.txt no ferramentas para Webmaster, e pelo menos lá (no teste) o Googlebot tinha acesso aos diretórios que supostamente foram bloqueados, achei e estranho e substituí User-agent: * por User-agent: Googlebot , aí sim bloqueou o acesso aos diretórios. De acordo com esse teste o * não esta bloqueando o acesso de todos os user-agents.

 
Comentário por Charles
2007-08-03 08:40:41

Bruno, este cara parece ter copiado na maior cara de pau o seu post.
http://agarrados.org/o-robotstxt-ideal-para-o-wordpress/

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-08-07 12:14:30

Anny, nas estatísticas do Webmasters Tool, mostra as páginas barradas no robots, e o Google está interpretando corretamente, pode ser um erro da ferramenta.

Charles, aparentemente, sim, ele não faz idéia da besteira que está fazendo.

Abraços

 
Comentário por Edson Luiz Recebendo notificações por e-mail
2007-08-17 07:45:28

Olá bruno eu uso o blogger e não posso alterar o robots.txt então gostaria de saber se tem como o bloquear os links do buscapé com algum código parecido com esse...
[meta content='index' name='robots'/]

 
Comentário por Anny Rose Recebendo notificações por e-mail
2007-08-17 11:42:26

Edson, você pode usar o nofollow para que o Google não siga o link do buscapé. Basta incluir rel="nofollow" na tag do link.

 
Comentário por Bruno Alves Recebendo notificações por e-mail
2007-08-18 14:39:38

Edson, o blogger não permite o uso do robots.txt, terá que fazer como Anny sugeriu.

Anny, obrigado.

Abraços

 
2007-08-25 17:26:12

[...] cuidar de todos os detalhes. Para fazer seu robots.txt otimizado para blogs, recomendo a leitura deste texto do Bruno Alves e para fazer seu sitemaps a escolha de algum plugin, eu utilizei este [...]

 
Comentário por Julio Recebendo notificações por e-mail
2007-09-05 00:19:14

cara esse seu robots ai me causou muitos problemas, se ele bloqueia *.php voce vai ter problemas, vc está bloqueando acesso a paginas php

Comentário por Bruno Alves Recebendo notificações por e-mail
2007-09-06 15:06:31

Julio, pelo que vi no seu blog, você não usa nenhuma página .php, como o robots pode ter te prejudicado?

Além disso, eu informo no texto que as pessoas que usam .php no permalink precisam remover esta linha.

Abraço

 
 
Comentário por joiooiioioi
2007-10-09 21:04:37

.s.sç´lslps.,llsmiomkjm nsjns.sp sisl,ljsdikir jtklfgjfgfkhlj; kjog bi uoiji jiugfjgfk 9 9fiu9ihfukhfkbnfojbkfnjbhfdkhbgnj bijfmnfmngkbvifjig ofjdijgjgiojfingiofjfdi oijfijgiujfijn fkfjigfojmgiddfjifg ikjgijgiffj igjifgjigugkhgjifoy ijigfiufoijifgjin idihjdf.trochasjsdhudhudgfuy

 
Trackback por EnterNauta
2008-01-28 17:58:46

Robots.txt: como usar...

Robots são as unidades utilizadas por mecanismos de busca para indexar as páginas da web. Quem tem um site pode dar certas instruções ao robot inserindo um arquivo de texto na pasta raiz de nome robots.txt. Pois, se o robot chegar à página, e est...

 
2008-02-20 20:48:52

[...] Para saber mais sobre o arquivo robots.txt, veja a página da Wikipedia que trata sobre o assunto. Para os blogueiros de plantão, no BrPoint há um artigo que sugere um robots.txt ideal para o Wordpress. [...]

 
2008-02-25 01:44:25

[...] de ler o artigo onde Andy Beard, mostra que bloquear as resenhas patrocinadas, no robots.txt, pode ser uma solução interessante para todos e ficar alguns dias pensando sobre o assunto, [...]

 
Comentário por AulaTube
2008-04-07 08:41:40

Olá Bruno,
existe alguns erros de sintaxe que precisam ser corrigidos. Por exemplo a linha "CODE:" precisaria ser removida. Digo isso, pois chequei em alguns "Robots.txt Syntax Checking". A propósito seu post e blog são muito importantes para nós, obrigado.

 
2008-04-13 19:37:05

[...] BRPoint tem um robots bem interessante mas eu precisei fazer algumas mudanças. O código completo está [...]

 
Comentário por Charles Müller Recebendo notificações por e-mail
2008-05-15 10:58:57

Uma dica:
Quem (eu, por exemplo) não quer que conteúdo velho (e até removido) do site seja obtido via WayBack Machine (www.archive.org) pode usar isto no robots.txt:

User-agent: ia_archiver
Disallow: /

 
Comentário por Charles Müller Recebendo notificações por e-mail
2008-05-15 13:28:18

Olá Bruno. Volto ao seu (famoso) post, agora pretendo implementar no site o modelo de robots.txt que você sugere. Nisto surgiram algumas dúvidas.
1) Minha estrutura de URL será http://www.meudominio.com/nomedacategoria/nomedopost mas, fico com certo receio em bloquear *.php, os robôs não precisam varrer o conteúdo que estas páginas (scripts) geram?
2) O mesmo para o caracter ?, se bem que só a URL dos resultados de busca usa-o.
3) A string /tag/ é usada para formar "índices" das tags (etiquetas de assunto) do blog, bloqueá-las não reduz a exibição nos buscadores?
4) Pelo que consta no artigo e comentários acima, posso bloquear os feeds via robots.txt ou via opção noindex do Feedburner. Mas, qual a razão de bloquear os feeds? Isto não irá impedir que o site figure no Google Blog Search e no Technorati?

:) Valeu.

 
Nome
Email
Site
Seu Comentário (menor | maior)
Você pode usar: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> e [CODE] [/CODE] em seu comentário.