Dette indlæg er en lang, men vigtig. Jeg vil anbefale dig snuppe en kop varm chokolade, før du starter 
Hvis du ikke har hørt om robots.txt-fil, det er simpelthen en lille fil placeret i din hjemmeside rodmappe, der instruerer søgemaskinerne på, hvad de kan og ikke kan gøre. Selvom det ikke er strengt håndhævet, vil søgemaskine bots generelt opfylde reglerne fremad i robots.txt-filen. Med en korrekt konfigureret robots.txt-fil, du kan for eksempel forsøge at afværge spam bots, fortæller Google om ikke at indeksere dine billeder eller instruere bots til at springe sider, der kan indeholde kopieret indhold.
Bots er stykker af software bruges af søgemaskine selskaber, spammere og indhold akkumulatorer at gennemsøge internettet for at finde nye eller ændrede indhold. En bot opgave er at følge links på en hjemmeside kravle fra side til side og sted til sted. Det er lidt ligesom et Six Degrees of Kevin Bacon ting. Følg nok, links og du bør i sidste ende finde alt indhold på nettet. Dette er grunden til backlinks er så vigtige. Jo mere backlinks du har, jo lettere er det for søgemaskiner at finde dit indhold. Der er bogstaveligt talt millioner af bot tilfælde trawlfiskeri nettet ad gangen. Den officielle betegnelse for en bot er en bruger-agent, som der er tusindvis. Lad os tage Google f.eks. Google har mange forskellige bruger-midler, som anvendes til at indeksere dit websted, udtrække billeder og videoer, find nyheds-feeds, find mobiltelefonen indhold, skal du kontrollere dit websted for Adsense kvalitet og så videre. Dette websted detaljer en komplet liste over kendte bruger-agenter.
Filen robots.txt har eksisteret i aldre. Det var faktisk indført af AltaVista i 1994, men nu er stadig en fast bestanddel mad til web edderkopper. For en fuldstændig beskrivelse af filen og dens standard notation, kan du besøge her . Kort sagt, kan en robots.txt-fil begrænse bestemte robotter fra at gennemgå hele dit websted eller en del heraf. For at gøre dette, alle robotter har en speciel signatur. For eksempel er Googles indeks bot hedder Googlebot, er Bings bot hedder MSNbot, og Yahoos bot hedder Yahoo! slubre.
En post i Robots.txt filen kan se således ud:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Her er vi fortæller slubre user agent, at det kan få adgang til alle sider ligger i enhver mappe der begynder med "offentlig", og har ingen adgang til sider med "_print" i URI.
Nedenfor er en komplet robots.txt-fil til en af mine eksperimentelle WordPress sites (jeg vil skrive en artikel, der forklarer hvad jeg mener med eksperimenterende sted en anden dag). Snu læsere kan konstatere, at jeg udelukke alle bruger agenter fra bestemte mapper, og kun tillader nogle specifikke bruger agenter adgang til de resterende områder af mit site. En nylig opdatering til den standard også tillader mig at nævne placeringen af mit site map til at hjælpe søgemaskinerne finde alle mine sider.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Udelukke robotter fra at få adgang til indhold, der ikke er bestemt til forbrug vil sikre, at dit websted vil forblive søgeord optimeret på alle sider, og dermed hjælpe fremme dit websted inden for en placering på søgemaskinerne. Sig for eksempel, du har arbejdet hårdt på at optimere alle sider for søgeordet "vægtøgning" og de forskellige lange haler. Dit arbejde kan filtreres ned i øjnene på søgemaskinen, hvis det var i stand til at gennemgå dit login-side, privatliv side og kontakt form.
Nogle SEO-eksperter hævder også, at Google straffer unge hjemmesider til fordel for ældre og mere etablerede sites. Google tilsyneladende bruger Internet Archive (findes her ) til at bestemme alderen på et websted. Hvis den ikke kan finde sted i arkivet, det tilsyneladende forudsætter site er en vis alder. Af denne grund, aktivt mange mennesker stoppe Internet Archive user-agent indekserer deres site. Dette kan gøres ved at inkludere følgende linjer:
User-agent: ia_archiver-web.archive.org
Disallow: /
Du vil måske også stoppe billedet bots i at få adgang til dine billeder, hvis de har lånt Non-Stock billeder fra andre sites. Dette kan gøres sådan her:
User-agent: Googlebot-Image
Allow: /
Endelig kan robots.txt anvendes til at udelukke robotter fra specifikke sider, der kan bruges til at vise indhold, der kan være til rådighed på andre websteder eller sider. Det hævdes ofte, at Google vil straffe dine vurderinger til visning af kopieret indhold. Jeg personligt kan ikke se dette som et stort problem og tror, kopieret indhold rent faktisk kan hjælpe dit websted rating i nogle tilfælde (mere om dette en anden dag). Anyway, for at stoppe en bot at få adgang til en bestemt side, skal du tilføje følgende linjer:
User-agent: *
Disallow: */my-duplicate-page.html
Bemærk, at dette ikke er en idiotsikker metode. Hvis din underkendt side har links til det fra et andet websted, vil det stadig blive gennemgået af bots.
Jeg kunne blive ved, men jeg er sikker på at du er alle kede af nu. Du er velkommen til at kommentere nedenfor, eller kontakte mig direkte, hvis du ønsker at vide mere.
Glade roboting.