Aquest post és llarg, però important. Li recomano que prengui una tassa de xocolata calenta abans de començar 
Si vostè no ha sentit parlar de l'arxiu robots.txt, és simplement un petit arxiu ubicat al directori arrel del lloc web que indica als motors de cerca sobre el que poden i no poden fer. Encara que no és estrictament forçada, contra els robots dels motors de cerca generalment es respectin les normes exposades en el fitxer robots.txt. Amb un arxiu robots.txt degudament configurat pot, per exemple, l'intent de defensar-se dels robots d'spam, dir-li que no a Google a indexar les seves imatges o donar instruccions als robots per passar les pàgines que poden tenir contingut duplicat.
Els bots són peces de programari utilitzat per les companyies de motors de cerca, els spammers i els acumuladors de contingut per rastrejar l'Internet per trobar contingut nou o modificat. El treball d'un bot és seguir els enllaços en un lloc web el rastreig d'una pàgina a una altra i d'un lloc a un altre. És com una mena de Six Degrees of Kevin Bacon cosa. Seguiu els enllaços suficients i que finalment ha de trobar tot el contingut a la xarxa. Aquesta és la raó per backlinks són tan importants. El retrocés més tens, més fàcil serà per als motors de cerca per trobar el seu contingut. Hi ha literalment milions de casos bot pesca d'arrossegament de la xarxa en qualsevol moment. El termini oficial per a un bot és un agent d'usuari dels que hi ha milers de persones. Deixa la presa Google, per exemple. Google té molts diferents agents d'usuari utilitzat per indexar el seu lloc, extreure imatges i vídeos, trobar fonts de notícies, trobar informació sobre el telèfon mòbil, consulteu el lloc de la qualitat de Adsense i així successivament. Aquest lloc detalla una llista completa dels coneguts agents d'usuari.
L'arxiu robots.txt ha existit per segles. Va ser introduït en realitat per AltaVista el 1994, però ara segueix sent un aliment bàsic per a les aranyes web. Per a una descripció completa de l'arxiu i la seva notació estàndard, visiteu aquí . En poques paraules, un arxiu robots.txt pot restringir brossa específiques de rastreig del seu lloc complet o part d'aquest. Per això, tots els robots tenen una signatura especial. Per exemple, l'índex de robot de Google es diu Googlebot, bot Bing es diu MSNbot i Yahoo bot es diu Yahoo! Slurp.
Una entrada al fitxer robots.txt pot tenir aquest aspecte:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Aquí li estem dient a l'agent d'usuari Slurp que pugui accedir a totes les pàgines que troba en el directori que comencen per "públic", i no tenen accés a pàgines amb "_print" al URI.
A continuació es mostra un fitxer robots.txt per completar un dels meus llocs experimentals WordPress (Vaig a publicar un article explicant el que vull dir pel lloc experimental altre dia). Els lectors astuts poden notar que estic rebutjant tots els agents d'usuari de directoris específics, i només permetre que alguns agents d'usuari específics d'accés a les altres àrees del meu lloc. Una recent actualització de la norma també em permet a la llista de la ubicació del meu mapa web per ajudar els motors de cerca troben totes les meves pàgines.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Rebutjant els robots d'accedir als continguts no destinats al consum s'ha d'assegurar que el seu lloc seguirà sent paraules clau optimitzades en totes les pàgines, ajudant així a promoure el seu lloc en els motors de cerca. Diguem per exemple que vostè ha treballat dur en l'optimització de totes les pàgines del "augment de pes" de paraules clau i les llargues cues diferents. El seu treball pot ser filtrada pels ulls dels motors de cerca si s'ha pogut rastrejar la seva pàgina d'inici de sessió, a la pàgina de privacitat i formulari de contacte.
Alguns experts en SEO també argumenten que Google castiga llocs web dels joves en favor dels llocs antics més establerts. Google pel que sembla, utilitza l'Internet Archive (que es troba aquí ) per determinar l'edat d'un lloc. Si no pot trobar el lloc a l'arxiu, segons sembla, assumeix que el lloc és d'una certa edat. Per aquesta raó, moltes persones activament parada de l'Arxiu d'Internet de l'agent d'usuari de la indexació del seu lloc. Això pot fer mitjançant la inclusió de les següents línies:
User-agent: ia_archiver-web.archive.org
Disallow: /
Vostè també pot desitjar deixar de robots de la imatge d'accedir a les imatges si s'han pres no-acció imatges d'altres llocs. Això es pot fer així:
User-agent: Googlebot-Image
Allow: /
Finalment, es pot utilitzar robots.txt per excloure els robots de pàgines específiques que es poden utilitzar per mostrar el contingut que poden estar disponibles en altres llocs o pàgines. Sovint s'argumenta que Google castigarà les seves qualificacions per a la visualització de contingut duplicat. Jo personalment no ho veig com un gran problema i crec que el contingut duplicat pot ajudar realment a la qualificació del seu lloc, en alguns casos (més sobre això un altre dia). De tota manera, per detenir un bot d'accedir a una pàgina específica, afegiu les línies següents:
User-agent: *
Disallow: */my-duplicate-page.html
Tingueu en compte que aquest no és un mètode infal · lible. Si la seva pàgina té enllaços rebutjat a ell des d'un altre lloc, seguirà sent rastrejat pels robots.
Podria seguir, però estic segur que tots vostès estan avorrits d'ara. Sentir-se lliure de comentar a continuació o poseu-vos en contacte amb mi directament si voleu saber més.
Roboting feliç.