Dette innlegget er en lang, men viktig. Jeg anbefaler at du tar en kopp varm sjokolade før start din 
Hvis du ikke har hørt om robots.txt-filen, er det bare en liten fil som ligger i ditt nettsted rotkatalogen som instruerer søkemotorer på hva de kan og ikke kan gjøre. Selv om det ikke strengt håndhevet, vil søkemotoren roboter generelt respektere reglene satt fram i robots.txt-filen. Med en riktig konfigurert robots.txt-fil kan du for eksempel forsøk på å avverge spam bots, forteller google ikke å indeksere bildene dine eller instruere roboter å hoppe sider som kan inneholde likt innhold.
Bots er biter av programvare som brukes av søkemotoren selskaper, spammere og innhold akkumulatorer å krype på internett for å finne ny eller endret innhold. En bot jobb er å følge linker på en nettside krypende fra side til side og nettsted til nettsted. Det er litt som en Six Degrees of Kevin Bacon ting. Følg nok linkene og du bør etterhvert finne alt innhold på nettet. Dette er grunnen backlinks er så viktig. Jo flere backlinks du har, jo lettere er det for søkemotorer å finne innhold. Det er bokstavelig talt millioner av bot forekomster tråling på nettet til enhver tid. Den offisielle betegnelsen på en bot er en bruker-agent som det finnes tusenvis. La oss ta Google for eksempel. Google har mange ulike brukergrupper-agenter som brukes til å indeksere nettstedet ditt, trekke ut bilder og videoer, finn nyhetsfeeder, finner mobiltelefonen innhold, sjekk nettstedet for Adsense kvalitet og så videre. Dette nettstedet detaljer en komplett liste over kjente brukeragenter.
Robots.txt filen har vært rundt for aldere. Den ble faktisk introdusert av AltaVista i 1994, men nå gjenstår en stift mat for web edderkopper. For en fullstendig beskrivelse av filen og dens standard notasjon, gå her . Kort sagt, kan en robots.txt-fil begrense bestemte roboter fra å gjennomsøke hele området eller deler av disse. For å gjøre dette, alle roboter har en spesiell signatur. For eksempel er Googles indeks bot heter Googlebot, blir Bing bot heter MSNbot, og Yahoos bot kalles Yahoo! Slurp.
En oppføring i robots.txt-filen kan se slik ut:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Her blir vi fortelle Slurp user agent at det kan få tilgang til alle sider som finnes i en katalog som starter med "offentlig", og har ingen tilgang til sider med "_print" i URI.
Nedenfor er en komplett robots.txt-fil for en av mine eksperimentelle WordPress nettsteder (jeg poste en artikkel som forklarer hva jeg mener med eksperimentell nettstedet annen dag). Gløgg lesere kan merke seg at jeg ikke tillate alle nettlesarar fra bestemte kataloger, og kun tillate noen spesifikke brukergrupper agenter tilgang til de øvrige områdene på nettstedet mitt. En fersk oppdatering til standarden tillater meg også å liste plasseringen av nettstedet mitt kartet for å hjelpe søkemotorene finne alle sidene mine.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Tillate roboter fra å få tilgang innhold ikke er beregnet på konsum vil sikre at området vil forbli søkeordet optimalisert på alle sider, og dermed bidra til å fremme ditt nettsted innenfor søkemotorrangeringer. Si for eksempel at du har jobbet hardt for å optimalisere alle sider for søkeordet "vektøkning" og de ulike lange haler. Arbeidet ditt kan bli filtrert ned i øynene til søkemotoren om det var i stand til å gjennomsøke login side, privatliv side og kontaktskjema.
Noen SEO eksperter også argumentere for at Google straffer unge nettsteder i favør av eldre mer etablerte områder. Google bruker tydeligvis Internet Archive (funnet her ) for å bestemme alderen på et nettsted. Hvis den ikke kan finne området i arkivet, antar det tilsynelatende området er en viss alder. Av denne grunn, mange mennesker aktivt stoppe Internet Archive user-agent fra indeksere deres nettsted. Dette kan gjøres ved å inkludere følgende linjer:
User-agent: ia_archiver-web.archive.org
Disallow: /
Det kan være lurt å også stoppe bilde roboter får tilgang til dine bilder hvis de har lånt ikke-lager bilder fra andre nettsteder. Dette kan gjøres slik:
User-agent: Googlebot-Image
Allow: /
Endelig kan robots.txt brukes til å ekskludere roboter fra bestemte sider som kan brukes til å vise innhold som kan være tilgjengelig på andre nettsteder eller sider. Det blir ofte hevdet at Google vil straffe dine stemmer for visning likt innhold. Jeg personlig ser ikke dette som et stort problem og tror at duplisert innhold kan faktisk hjelpe nettstedets vurdering i noen tilfeller (mer om dette en annen dag). Uansett, å stoppe en bot fra tilgang til et bestemt side, legge til følgende linjer:
User-agent: *
Disallow: */my-duplicate-page.html
Merk at dette ikke er en idiotsikker metode. Hvis ikke tilatt side har lenker til det fra et annet nettsted, vil det fortsatt bli gjennomgått av roboter.
Jeg kunne fortsette, men jeg er sikker på at du er alle lei av nå. Føl deg fri til å kommentere nedenfor eller kontakt meg direkte dersom du ønsker å vite mer.
Glad roboting.