Técnicas de SEO Robots.txt
Este post é longo, mas importante. Eu recomendo que você pegue uma xícara de chocolate quente antes de seu início ![]()
Se você ainda não ouviu do arquivo robots.txt, é simplesmente um pequeno arquivo localizado no diretório raiz do site que instrui os motores de busca sobre o que pode eo que não pode fazer. Embora não seja rigorosamente aplicada, bots motor de busca, em geral o respeito às regras estabelecidas para a frente no arquivo robots.txt. Com um arquivo robots.txt adequadamente configurados, você pode, por exemplo, a tentativa de afastar spam bots, diga não google para indexar suas imagens ou instruir bots para pular páginas que podem conter conteúdo duplicado.
Bots são pedaços de software utilizado por empresas do Search Engine, spammers e acumuladores de conteúdo para rastrear a Internet para encontrar conteúdo novo ou modificado. O trabalho de um bot é seguir os links em um site de rastreamento de página para página e site para site. É como uma espécie de Six Degrees of Kevin Bacon coisa. Siga os links suficiente e você deve, eventualmente, encontrar todo o conteúdo na rede. É por isso que backlinks são tão importantes. Os backlinks mais você tem, mais fácil é para os motores de busca para encontrar seu conteúdo. Existem literalmente milhões de casos bot arrasto da rede a qualquer momento. O termo oficial para um bot é um agente de usuário de que há milhares de pessoas. Vamos dar o Google por exemplo. Google tem muitos diferentes user-agentes utilizados para indexar seu site, extrair imagens e vídeos, feeds de notícias encontrar, encontrar conteúdo para o celular, verificar o seu site para Adsense qualidade e assim por diante. Este site de detalhes de uma lista completa de conhecidos agentes do usuário.
O arquivo robots.txt tem sido em torno de idades. Na verdade, foi introduzida pelo AltaVista , em 1994, mas agora continua a ser um alimento básico para aranhas web. Para uma descrição completa do arquivo e sua notação padrão, visite aqui . Em suma, um arquivo robots.txt pode restringir bots específicos de rastreamento do seu site inteiro ou parte dele. Para fazer isso, todos os bots tem uma assinatura especial. Por exemplo, bot do Google índice é chamado Googlebot, bot é chamada Bing MSNbot e Yahoo bot é chamada Yahoo! Slurp.
Uma entrada no arquivo Robots.txt pode ser parecido com este:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Aqui nós estamos dizendo ao agente de usuário Slurp que ele pode acessar todas as páginas localizadas em qualquer diretório que começam com "público", e não tem acesso às páginas de "_print" na URI.
Abaixo está um arquivo robots.txt completa para um dos meus sites experimental WordPress (vou postar um artigo explicando o que quero dizer com site experimental outro dia). Leitores astutos podem notar que eu estou proibindo todos os agentes do usuário a partir de diretórios específicos, e apenas permitindo que alguns agentes de usuário específico acesso às restantes áreas do meu site. A recente atualização para o padrão também permite-me à lista a localização do meu mapa do site para ajudar os motores de busca encontrar todas as minhas páginas.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Não permitindo bots de acessar o conteúdo não destinados ao consumo vai garantir que seu site permanecerá palavra-chave otimizado em todas as páginas, contribuindo assim para promover o seu site dentro do motor de pesquisa rankings. Digamos, por exemplo, você tem trabalhado duro para otimizar todas as páginas para o "ganho de peso" palavra-chave e as caudas vários longas. Seu trabalho pode ser filtrado nos olhos do mecanismo de busca se ele foi capaz de rastrear sua página de login, a página de privacidade e formulário de contato.
Alguns especialistas em SEO também argumentam que o Google pune sites jovens em favor dos mais antigos sites mais estabelecidos. Google aparentemente usa a Internet Archive (encontrado aqui ) para determinar a idade de um site. Se ele não pode encontrar o local no arquivo, ele aparentemente assume o site é uma certa idade. Por esta razão, muitas pessoas ativamente parar o Internet Archive user-agent da indexação de seu site. Isto pode ser feito incluindo as seguintes linhas:
User-agent: ia_archiver-web.archive.org
Disallow: /
Você também pode querer parar de bots imagem de acessar suas fotos se tiverem emprestado não-ações imagens de outros sites. Isto pode ser feito assim:
User-agent: Googlebot-Image
Allow: /
Finalmente, robots.txt pode ser usada para excluir bots de páginas específicas que podem ser usados para exibir o conteúdo que podem estar disponíveis em outros sites ou páginas. Costuma-se argumentar que o Google irá punir suas avaliações para a exibição de conteúdo duplicado. Eu pessoalmente não vejo isso como um grande problema e acreditar que o conteúdo duplicado pode realmente ajudar a classificação do seu site em alguns casos (mais sobre isso outro dia). De qualquer forma, para parar um bot de acessar uma página específica, adicione as seguintes linhas:
User-agent: *
Disallow: */my-duplicate-page.html
Note que este não é um método à prova de idiota. Se sua página tem permitido links para ele de outro site, ele ainda vai ser rastreado pelo bots.
Eu poderia continuar, mas tenho certeza que todos vocês estão entediados até agora. Sinta-se livre para comentar abaixo ou entre em contato comigo diretamente, se você deseja saber mais.
Roboting feliz.



















