Seminário Internacional de Web Analytics

A área de Web Analytics é muito importante para a Web e complementa perfeitamente o Marketing de Busca, pois precisamos medir o resultado de uma campanha, verificar o ROI de uma peça ou analisar o comportamento do visitante no site para facilitar a tomada de decisão.

Então aí vai uma boa notícia. Acontecerá em São Paulo (12/08), no Distrito Federal (13/08) e no Rio de Janeiro (14/08) o Seminário Internacional de Web Analytics. Além de falar de Web Analytics, terão tópicos como Web 2.0, buscas e cases. O evento conta também com Colby Cavanaugh, Sean Browning e Virginia Carcavallo como palestrantes.

Outra boa notícia é que os leitores do Marketing de Busca tem um grande desconto. Na inscrição, informe o código MKTBUSCA, que deverá ser digitado no campo “código promocional”. O desconto concedido será de 50% (o valor será R$ 400). Este código pode ser passado aos seus amigos ou divulgado em seu site ou blog.

Participarei do evento do Rio de Janeiro e se você aparecer por lá, me pare para um olá.

Comentários (4)

HTTP Headers – o cabeçalho oculto

Em uma simples visita a uma página, muita gente não tem noção de quantos processos acontecem até a sua página ser totalmente carregada. Cada página, imagem e CSS gera uma requisição por parte do navegador ao servidor de um site. Esta conversa é feita com o protocolo HTTP. Um robô de busca também usa o mesmo protocolo para se comunicar e varrer um site. Esta conversa fica oculta aos nossos olhos, mas ela é importante para SEO. A conversa acontece pelo cabeçalho HTTP. Ele tem a parte de requisição que é feita pelo user-agent ao host e tem a parte da resposta que é a mensagem retornada referente a requisição com um código de status. Vamos ver um pouco o processo.

Requisição HTTP

Quando você digita uma URL no seu navegador e aperta enter, sem você ter noção, o navegador faz um pedido ao servidor que responde a solicitação. Veja abaixo um exemplo de requisição ao servidor:

GET / HTTP/1.1
Host: www.marketingdebusca.com.br
Connection: close
User-Agent: Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Accept-Encoding: gzip
Accept-Charset: ISO-8859-1,UTF-8;q=0.7,*;q=0.7
Cache-Control: no
Accept-Language: de,en;q=0.7,en-us;q=0.3
Referer:

Neste exemplo o pedido é feito pelo método GET para o host (URL) marketing de busca pelo user-agent Googlebot. No lugar do User-Agent Googlebot poderia ser o Internet Explorer, o Firefox ou qualquer programa que você inventar. É possível informar um User-Agent sem confirmar se ele é realmente é verdadeiro. Isto serve para identificar se um servidor está passando páginas para os Robô de busca diferentes das páginas para os usuários. O servidor pode inclusive apresentar conteúdo diferente baseado no User-Agent. Esta é uma técnica comum de Black Hat SEO onde o criador da página pode apresentar apenas para o Googlebot um página otimizada enquanto os outros visitantes recebem uma página diferente como Flash por exemplo.

Resposta HTTP

A requisição HTTP que fizemos acima, gera uma resposta do servidor. Veja um exemplo de resposta à requisição:

HTTP/1.1 200 OK
Date: Wed, 30 Jul 2008 19:41:57 GMT
Server: Apache/1.3.37 (Unix) mod_throttle/3.1.2 ...
X-Pingback: https://marketingdebusca.com.br/xmlrpc.php
X-Powered-By: PHP/5.2.6
Connection: close
Content-Type: text/html; charset=UTF-8
Content-Encoding: gzip
Content-Length: 9631

Está é a resposta HTTP. A primeira linha tem um código. Neste caso é o código 200. Este código responde ao User-Agent que a página foi encontrada com sucesso e será enviado a quem pediu. Também são informados dados do servidor que no caso é o Apache e seu módulos instalados como o PHP. Tem vários outros dados também como o tamanho do conteúdo e o tipo dele.

Existem vários códigos de retorno possíveis a cada requisição. Os códigos tem sempre três dígitos e o primeiro digito mostra a que grupo de código de Status ele pertence.

Vamos ver os grupos e os códigos mais importantes para SEO.

Códigos de Status

1XX Informacional
Não há necessidade de se preocupar com este, serve apenas para informar que a informação foi recebida e que o processo continua.

2XX Sucesso
Significa que o pedido foi recebido com sucesso. É o que sempre acontece quando suas páginas são carregadas

200 – OK. O pedido ao servidor foi atendido com sucesso. A página web existe e será enviada ao user-agent (navegador, robô de busca…).

3XX Redirecionamento
Serve para avisar direto no cabeçalho HTTP uma mudança de página. Diferente de um Meta Refresh ou usar javascript, ele permite um redirecionamento “suave” e importante para SEO.

301 – Movido Permanentemente. Muito útil para redirecionar páginas. Serve para redirecionar suas URLs que foram movidas permanentemente. Assim você evita páginas de código 404 ou pode tornar URLs dinâmicas com em URLs limpas.
302 – Movido Temporariamente. Serve também para mover, mas com função temporária. A vantagem é que você pode reverter isto. Funciona bem para manutenções ou alteração não definitiva. O robô de busca continua visitando o endereço original.

4XX Erro do Cliente
Deve ser tratado com atenção pois o conteúdo não estará acessível para o visitante nem para o site de busca. Problema para indexar.

401 – Não autorizado. O acesso a página não esta autorizado pois possivelmente a pessoa não está logada. Isto impede de uma página ser indexada por exemplo.
403 – Proibido. Neste caso o robô de busca também não terá como indexar o conteúdo.
404 – Não encontrado. É o código de retorno pode ser uma página ou arquivo que não existe no servidor, como um arquivo apagado. Pode ser usado para apresentar uma página com conteúdos relacionados à URL procurada.

5XX Erro do Servidor
O servidor não consegui atender o pedido por algum erro. Também não permitirá a indexação da página.

500 – Erro interno do servidor.
503 – Serviço indisponível. Pode ser um erro temporário. Uma manutenção ou uma grande quantidade de acessos pode derrubar o servidor.

Testando cabeçalho HTTP e User-Agent

Agora que você já tem uma idéia do processo de “conversa” no HTTP, aproveite para simular como ele funciona. Um serviço online interessante é o web sniffer. Ele permite que você veja o cabeçalho HTTP e troque o user-agent. Também é possível utilizar plugins para Firefox. Um deles é o Live HTTP Header que permite monitorar o cabeçalho HTTP. Outro plugin interessante é o User Agent Switcher que permite que você altere o User-Agent do Firefox para outros como o Googlebot ou o até o Safari no Iphone. Agora você vai poder aproveitar melhor esta conversa oculta.

Comentários (8)

Hoje é o meu aniversário, mas o PageRank é para você!

Pessoal, hoje é o meu aniversário e o Matt Cutts anunciou que o PageRank será atualizado (já repararam que a sigla PR são as minhas iniciais?) . Ele falou também que algumas punições aplicadas serão revertivas. Parece que quem sofreu recentemente punições e corrigiu será beneficiado. É só ter calma.

Outra coisa interessante foi que o Matt falou que as atualizações do PR acontencem a cada 3-4 meses. Nem sempre é esta periodicidade, mas já bate com o que tem acontecido. E ele confirmou o que costumo falar muito no curso que internamente o Google tem muito mais níveis intermediários entre o PR 0 e o PR 10.

Parabéns super-chefe

Outra coisa quero dividir com todos foi que recebi um cartão de aniversário personalizado muito legal do pessoal aqui do trabalho. Escaneei (existe esta palavra?) uma parte do cartão para dividir com vocês:

Busca por Parabéns Super ChefeObrigado a toda a equipe e amigos por todo o carinho que vocês tem me dado. Obrigado de coração!
Aproveito para agradecer a todos os amigos/visitantes do site por todo carinho e atenção. Tenho feito muitos amigos legais graças a ele.

Atenção: a busca por [parabéns super-chefe] não é um Google Bomb real, mas podia ser. 🙂

Comentários (27)

Black Hat SEO pode ser de culpa externa

Cristina Dissat é uma excelente jornalista e foi minha aluna. Ela está desesperada com seu blog. O Fim de Jogo teve uma queda muito grande de acessos vindo do Google. Ela me questionou o que poderia ser e claramente notei que era o caso de uma punição. Sugeri a ela varrer o site procurando técnicas de Black Hat SEO que provavelmente eram a causa do problema. Ela procurou o site inteiro e nada. Sugeri que verificasse as mensagens dentro do Google Webmaster Tools. Nada também.

SERP do Fim de JogoComo consegui um tempo, resolvi olhar a fundo o que estava acontecendo. O primeiro passo era procurar o site no Google. Nem pelo nome do site ele estava aparecendo. Tentei então usando o comando “site:” e notei algo estranho. Veja a imagem e repare no tamanho das páginas. Algo suspeito em uma página de 250kb. Olhando o código da página reparei que o peso era muito diferente. O Google possivelmente estava vendo algo que nós não conseguíamos ver.

Como visualmente não havia nenhum indício dentro do site de Black Hat SEO, resolvi ver o site com os olhos do Google. Não sei se vocês sabem, mas é possível exibir conteúdo diferente para os visitantes do site e para o Googlebot. Já falei aqui da dica de usar o Cache do Google para ver como “os olhos do Google”. Na versão em cache do site, o rodapé da página apresentava um conteúdo bem diferente do restante do site.

Cache do Fim de Jogo com spam no rodapéAli está o problema. Quem conseguiu invadir o Fim de Jogo, colocou código oculto com vários links para venda de medicamentos dentro do site que só são apresentados quando o visitante se identifica com o user-agent como o Googlebot. A solução é olhar a programação da página e retirar o código.

A cada dia este tipo de ataque será mais comum. Mesmo sendo White Hat SEO é importante conhecer as técnicas Black Hat para se proteger. Por coincidência, escrevi no post anterior sobre o SQL Injection e SEO e você viram que o que o Matt Cutts escreveu também sobre o assunto? Só que eu fui mais rápido Matt. 🙂

Comentários (21)

SEO e SQL injection: é importante se proteger

No fim do meu post anterior, comentei sobre o problema de deixar sua versão do WordPress desatualizada. Alguns espertalhões tem aproveitado vulnerabilidades para inserir códigos em páginas de sites. Estes códigos tem diversas funções. Uma é a de esconder links nas suas páginas para passar o PageRank da vítima para páginas escolhidas pelo invasor. Outra é inserir código para abrir publicidade pop-up na suas páginas ou para usar sua página para atacar seus visitantes. Isto pode ser entendido como Black Hat SEO e causar punição para o seu site sem você nem ter culpa.

Umas das técnicas para explorar estas vunerabilidades é o SQL Injection e seu uso tem aumentado recentemente. Ele se aproveita da programação utilizada para consultar suas tabelas do banco de dados para roubar informação ou inserir código malicioso. Isto quer dizer que qualquer site que monta suas páginas com base no conteúdo de um banco de dados, como gerenciadores de conteúdo, corre o risco deste ataque.

Em maio deste ano começou um ataque vindo da China. Ele possui algo diferente de outros ataques, pois usa um robô que busca pelo Google sites vulneráveis. Isto possibilitou que o ataque fosse em grande escala e atingisse muitos sites pela internet. Existem sites do governo e de grande empresas entre as vítimas no Brasil. Qual o problema disto? O Google pode considerar o seu site um malware, colocar um aviso de site perigoso nele e até puní-lo.

Exemplo de página infectada com alerta “Este site pode danificar seu computador”:Tela do Google com alerta

Uma maneira de encontrar alguns exemplos deste grande ataque é procurar no Google por “b.js“, ou por um dos domínios usados no ataque como www.chinabnr.com, www.adwbnr.com ou www.pingadw.com. Se você foi vítima de um ataque deste, visite o link para saber sobre este SQL Injection da China.

Este código pode estar oculto no seu site e talvez seja difícil para o dono do site descobrir que sofreu um ataque. Para isto você tem duas alternativas: vasculhar o código de todas as página do site ou torcer para o Google descobrir e te enviar uma mensagem de alerta. Esta mensagem pode estar no Google Webmaster Tools na área de mensagens ou pode vir por e-mail se você tiver uma conta com nome de usuário como abuse, admin, administrator, contact, info ou webmaster. Um exemplo seria ter um e-mail como “contact(arroba)seusite.com.br”.

A mensagem que você receberá terá instruções sobre qual é a URL problemática e a possível causa do problema. Resolva completamente o problema e então informe ao Google. A tendência é que esti tipo de ataque seja mais comum, principalmente pelo potencial de conseguir links para aumentar PageRank, por isto atenção redobrada e divulgue sobre os riscos de invasão.

Comentários (23)

Um Google Bomb cínico e mentiroso?

Recebi um comentário um tanto suspeito com um link com texto âncora “cínico e mentiroso” para um possível site do político José Serra. Ao invés de simplesmente avisar sobre um novo Google Bomb sobre um político famoso, preferi fazer uma rápida análise da situação.

Só relembrando, o Google Bomb funciona com a pessoa digitando a palavra-chave, que no caso é cínico e mentiroso, na caixa de busca do Google e apertando o botão estou com sorte. A página aberta é vítima da associação com o termo procurado que em questão é um possível site do José Serra.

Serp de Cínico e Mentiroso

É difícil saber qual o motivo por trás desta história, mas chequei a propriedade deste domínio e vi que a empresa dona deste domínio possui vários outros domínios registrados com nomes de políticos e pastores. Não aparenta que eles tenham feito o Google Bomb. Olhando o site, percebi que realmente o termo do Google Bomb não está dentro da página. Também percebi que a página tem um título com um conteúdo esquisito:

A frase “governador de jose” não faz muito sentido e existe uma repetição de palavra-chave caracterizando Keyword Stuffing. Nem se fala da quantidade de caracteres no título e na meta tag description.

Keywords do site do José SerraAlém disto, vejam a caixa da imagem ao lado que é um print da coluna direita do site, posicionada logo abaixo dos anúncios do AdSense. Um amontoado de palavras-chave sem real intuito de ajudar o usuário e sim alimentar de palavras-chave para o robô de busca. Vejam as últimas linhas. A sequência de palavra-chave foi repetida oito vezes seguidas. Realmente existe necessidade de tanta repetição ou é uma estratégia para manipular o algoritmo?

Bom, antes de terminar, não tenho nenhuma associação política nem com a posição nem com a oposição. Quando divulguei o Google Bomb do Lula, sofri um flame war. O intuito é tentar alertar sobre este novo Google Bomb, informar sobre a ação do site em questão e aproveitar e orientar o dono do site do risco de punição que ele corre e provavelmente ele não sabe.

E por falar um punição, cuidado com vunerabilidades dentro do WordPress. Tive uma amiga que sofreu um ataque hacker em que inseriram keywords com links em seu site. Ela foi punida e não tinha nenhuma mensagem no Google Webmaster Tools. Atualizem suas versões e verifiquem se seus sites não sofreram um ataque. Você pode ter sido atacado e nem sabe.

Comentários (20)

página anterior · próxima página