Robots.txt techniques de SEO
Ce post est une longue, mais importante. Je vous recommande de prendre une tasse de chocolat chaud avant de vous lancer ![]()
Si vous n'avez pas entendu parler du fichier robots.txt, il est tout simplement un petit fichier situé dans votre répertoire racine du site qui indique les moteurs de recherche sur ce qu'ils peuvent et ne peuvent pas faire. Bien que n'étant pas strictement appliquées, les bots des moteurs de recherche seront généralement respecter les règles fixées en avant dans le fichier robots.txt. Avec un fichier robots.txt est correctement configuré, vous pouvez, par exemple, tentent de repousser les robots collecteurs de mails, indiquer à Google de ne pas indexer vos images ou d'instruire les robots collecteurs de sauter des pages qui pourraient contenir un contenu en double.
Les bots sont des morceaux de logiciel utilisé par les moteurs de recherche, les spammeurs et les accumulateurs de contenu pour analyser l'Internet pour trouver le contenu nouveau ou modifié. Le travail d'un bot est de suivre les liens sur un site web rampant de page en page et site à site. C'est un peu comme un Six Degrees of Kevin Bacon chose. Suivre les liens assez et vous devriez finir par trouver tout le contenu sur le net. C'est pourquoi backlinks sont si importantes. Les backlinks plus vous avez, plus il est facile pour les moteurs de recherche pour trouver votre contenu. Il ya littéralement des millions de cas bot chalutage sur le net à un moment donné. Le terme officiel pour un bot est un user-agent dont il existe des milliers. Prenons Google par exemple. Google a de nombreux différents utilisateurs agents utilisés pour indexer votre site, extraire des images et des vidéos, de trouver des fils de nouvelles, de trouver le contenu du téléphone mobile, vérifiez votre site pour la qualité Adsense et ainsi de suite. Ce site de plus de détails la liste complète des agents utilisateurs connus.
Le fichier robots.txt a été autour depuis des siècles. Il était en fait introduit par AltaVista en 1994, mais reste aujourd'hui un aliment de base pour araignées. Pour une description complète du fichier et sa notation standard, visitez le site ici . En bref, un fichier robots.txt peut restreindre les robots collecteurs spécifiques de ramper votre site entier ou en partie. Pour ce faire, tous les robots ont une signature particulière. Par exemple, l'index de Google bot est appelé Googlebot, robot de Bing est appelé MSNbot, et bot de Yahoo est appelé Yahoo! Slurp.
Une entrée dans le fichier robots.txt peut ressembler à ceci:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Ici, nous disons à l'agent utilisateur Slurp qu'il puisse accéder à toutes les pages situées dans n'importe quel répertoire commençant par «public», et n'ont pas accès à des pages contenant "_print" dans l'URI.
Ci-dessous un fichier robots.txt complet pour un de mes sites WordPress expérimental (je posterai un article expliquant ce que je veux dire par site expérimental un autre jour). Les lecteurs astucieux peut noter que je suis interdisant tous les agents utilisateurs à partir de répertoires spécifiques, et seulement permettre à certains agents utilisateurs spécifiques d'accès aux zones restantes de mon site. Une mise à jour récente de la norme me permet aussi à la liste de l'emplacement de ma carte de site pour aider les moteurs de recherche trouver toutes mes pages.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Interdire les robots collecteurs d'accéder au contenu non destiné à la consommation va s'assurer que votre site restera mot clé optimisé sur toutes les pages, contribuant ainsi à promouvoir votre site dans les moteurs de recherche. Disons par exemple que vous avez travaillé dur à l'optimisation de toutes les pages pour le «gain de poids» des mots clés et les queues de diverses longtemps. Votre travail peut être filtrée par les yeux des moteurs de recherche si elle a pu explorer votre page de connexion, la page vie privée et le formulaire de contact.
Certains experts SEO prétendent également que Google punit sites de jeunes en faveur des anciens sites plus établis. Google utilise apparemment l'Internet Archive (qui se trouve ici ) afin de déterminer l'âge d'un site. Si elle ne peut pas trouver le site dans les archives, il assume apparemment le site est un certain âge. Pour cette raison, beaucoup de gens activement arrêter l'Internet Archive user-agent de l'indexation de leur site. Ceci peut être fait en incluant les lignes suivantes:
User-agent: ia_archiver-web.archive.org
Disallow: /
Vous pouvez également arrêter les robots collecteurs de l'image d'accéder à vos photos si elles ont emprunté non-banque d'images provenant d'autres sites. Cela peut être fait comme ceci:
User-agent: Googlebot-Image
Allow: /
Enfin, robots.txt peut être utilisé pour exclure les robots collecteurs de pages spécifiques qui peuvent être utilisées pour afficher du contenu qui peut être disponible sur d'autres sites ou pages. Il est souvent avancé que Google va punir votre notes pour afficher le contenu en double. Personnellement, je ne vois pas cela comme un gros problème et nous croyons que le duplicate content peut effectivement aider à cote de votre site dans certains cas (plus à ce sujet un autre jour). Quoi qu'il en soit, pour arrêter un bot d'accéder à une page spécifique, ajoutez les lignes suivantes:
User-agent: *
Disallow: */my-duplicate-page.html
Notez que ce n'est pas une méthode infaillible. Si votre page a refusé a des liens avec elle depuis un autre site, il faudra encore être exploré par les bots.
Je pourrais continuer, mais je suis sûr que vous êtes tous s'ennuient maintenant. N'hésitez pas à commenter ci-dessous ou contactez-moi directement si vous souhaitez en savoir plus.
Roboting heureux.



















