Técnicas de SEO robots.txt
Este post é longo, pero importante. Eu recomendo que tome unha cunca de chocolate quente antes do seu inicio ![]()
Se aínda non escoitou o arquivo robots.txt, é simplemente un pequeno ficheiro situado no directorio raíz do sitio que instrúe os motores de busca sobre o que pode eo que non pode facer. Aínda que non é rigorosamente aplicada, bots buscador, en xeral o respecto ás regras establecidas para a fronte no ficheiro robots.txt. Con un arquivo robots.txt adecuadamente configurados, pode, por exemplo, o intento de afastar robots spamers, diga non google para indexar súas imaxes ou instruír bots para saltar páxinas que conteñan contido duplicado.
Motores de búsqueda son anacos de software utilizado por empresas do motor de procura, spammers e os acumuladores de contidos para rastrexar a Internet para atopar contido novo ou modificado. O traballo dun bot é seguir as ligazóns nun sitio web de rastreamento de páxina para páxina e sitio para web. É como unha especie de Six Degrees of Kevin Bacon cousa. Siga as ligazóns suficiente e ten que, finalmente, atopar todo o contido na rede. É por iso que backlinks son tan importantes. Os backlinks máis ten, máis fácil é para os motores de busca para atopar o seu contido. Existen literalmente millóns de casos bot arrastre da rede en calquera momento. O termo oficial para un bot é un axente de usuario de que hai miles de persoas. Imos dar Google por exemplo. Google ten moitos diferentes user-axentes utilizados para indexar seu sitio web, extraer imaxes e vídeos, fontes novas atopar, atopar contidos para o móbil, comprobar o seu sitio web para AdSense calidade e así por diante. Este sitio web de información da lista de coñecidos axentes de usuário.
O arquivo robots.txt ten sido en torno de idades. De feito, foi introducida polo AltaVista , en 1994, pero agora segue a ser un alimento básico para arañas web. Para unha descrición completa do ficheiro ea súa notación estándar, visite aquí . En suma, un arquivo robots.txt pode restrinxir bots específicos de seguimento do seu sitio web completo ou parte del. Para iso, todos os bots ten unha sinatura especial. Por exemplo, bot de Google índice se chama Google, bot chámase Bing MSNbot e Yahoo bot chámase Yahoo! Slurp.
Unha entrada no ficheiro robots.txt pode ser coma este:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Aquí estamos dicindo ao axente de usuario Slurp que pode acceder a todas as páxinas localizadas en calquera directorio que comezan con "público", e non ten acceso ás páxinas de "_print" na URI.
Abaixo está un arquivo robots.txt completa para un dos meus sitios experimental WordPress (vou publicar un artigo explicando o que quero dicir con sitio web experimental outro día). Lectores astutos poden notar que estou prohibindo todos os axentes de usuário a partir de directorios específicos, e só permitindo que algúns axentes de usuario específico acceso ás restantes áreas do meu sitio. A recente actualización para o estándar tamén permite-me á lista a localización do meu mapa do sitio web para axudar os motores de busca atopar todas as miñas páxinas.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Non permitindo bots acceder o contido non destinados ao consumo vai garantir que o seu sitio permanecerá contrasinal óptimo en todas as páxinas, contribuíndo así a promover o seu sitio dentro do motor de busca rankings. Digamos, por exemplo, ten a traballar duro para optimizar as páxinas para o "aumento de peso" palabra clave e as colas varios longas. O seu traballo pode ser filtrado nos ollos do motor de búsqueda se foi capaz de rastrexar a súa páxina de inicio de sesión, a páxina de Privacidade e formulario de contacto.
Algúns especialistas en SEO tamén argumentan que Google castiga sitios mozos en favor dos máis antigos sitios máis establecidos. Google aparentemente usa a Internet Archive (atopa aquí ) para determinar a idade de un sitio web. Se non pode atopar o lugar no ficheiro, aparentemente asume o sitio é unha certa idade. Por esta razón, moitas persoas activamente deter o Internet Archive user-agent da indexación do seu sitio. Isto pódese facer incluíndo as seguintes liñas:
User-agent: ia_archiver-web.archive.org
Disallow: /
Tamén pode querer deixar de bots imaxe de acceder a fotos se teñan prestado non accións imaxes de outros sitios. Isto pódese facer así:
User-agent: Googlebot-Image
Allow: /
Finalmente, robots.txt pode ser usada para eliminar bots de páxinas específicas que se poden usar para amosar o contido que poden estar dispoñibles en outros sitios ou páxinas. Adóitase argumentar que Google ha punir súa valoración para a visualización de contido duplicado. Eu persoalmente non vexo iso como un gran problema e crer que o contido duplicado realmente pode axudar a clasificación do seu sitio web nalgúns casos (máis sobre isto outro día). En calquera caso, para deixar un bot de acceder a unha páxina específica, engade as seguintes liñas:
User-agent: *
Disallow: */my-duplicate-page.html
Teña en conta que este non é un método a proba de idiota. Se a súa páxina permitiu con el doutro sitio, aínda vai ser Rastrexar polo bots.
Podería seguir, pero estou seguro que todos vostedes están entediados ata agora. Sinto-se libre para comentar a continuación ou póñase en contacto comigo directamente, se quere saber máis.
Roboting feliz.




















Ola alí,
markbeljaars.com para GoogleReader!
Grazas
Bernier