17. november 2009 2 Kommentarer

Robots.txt SEO Teknikker

http://markbeljaars.com/wp-content/plugins/sociofluid/images/digg_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/reddit_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/stumbleupon_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/delicious_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/furl_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/technorati_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/facebook_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/yahoobuzz_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/mixx_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/twitter_48.png~~V

Dette indlæg er en lang, men vigtig. Jeg vil anbefale dig snuppe en kop varm chokolade, før du starter :)

Hvis du ikke har hørt om robots.txt-fil, det er simpelthen en lille fil, der findes i dit websted rodmappen, der instruerer søgemaskinerne på, hvad de kan og ikke kan gøre. Selvom det ikke er strengt håndhævet, vil søgemaskinerobotter generelt overholder de regler, der fremad i robots.txt-fil. Med en korrekt konfigureret robots.txt-fil kan du for eksempel forsøger at afværge spambots, fortælle Google om ikke at indeksere dine billeder eller instruere bots til at springe sider, der kan indeholde kopieret indhold.

Bots er stykker af software, som anvendes af søgemaskinernes virksomheder, spammere og indhold akkumulatorer at gennemsøge internettet for at finde nyt eller ændret indhold. En bot opgave er at følge links på en hjemmeside kravle fra side til side og sted til sted. Det er lidt ligesom et Six Degrees of Kevin Bacon ting. Følg nok links og du bør i sidste ende finde alt indhold på nettet. Dette er grunden til backlinks er så vigtige. Jo flere backlinks du har, jo lettere er det for søgemaskiner at finde dit indhold. Der er bogstaveligt talt millioner af bot tilfælde trawlfiskeri nettet ad gangen. Den officielle betegnelse for en bot er en bruger-agent, som der er tusindvis. Lad os tage Google f.eks. Google har mange forskellige brugergrupper-midler, der anvendes til at indeksere dit websted, udtrække billeder og videoer, finde nyheder feeds, find mobiltelefonen indhold, tjekke dit websted for Adsense kvalitet og så videre. Dette websted detaljer en komplet liste over kendte bruger-agenter.

Filen robots.txt har været omkring for aldre. Den blev faktisk indført af AltaVista i 1994, men nu er en fast bestanddel mad til web edderkopper. For en fuldstændig beskrivelse af filen og dens standard notation, kan du besøge her . Kort sagt, kan en robots.txt-fil begrænse specifikke robotter i at gennemgå hele dit websted eller en del heraf. For at gøre dette, alle bots har en speciel signatur. For eksempel er Googles indeks bot hedder Googlebot, er Bings bot hedder MSNbot, og Yahoos bot kaldes Yahoo! Slurp.

En post i Robots.txt filen kan se således ud:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html

Her er vi fortæller Slurp brugeren agent, at det kan få adgang til alle sider, beliggende i en mappe der begynder med "offentlig", og har ikke adgang til sider med "_print" i URI.

Nedenfor er en komplet robots.txt-fil til en af mine eksperimentelle WordPress sites (jeg vil skrive en artikel, der forklarer, hvad jeg mener med eksperimenterende sted en anden dag). Snu læsere kan konstatere, at jeg udelukke alle brugergrupper agenter fra bestemte mapper, og kun tillader nogle specifikke brugeragenter adgang til de resterende områder af mit websted. En nylig opdatering til standard også tillader mig at nævne placeringen af ​​mit site map til at hjælpe søgemaskinerne finde alle mine sider.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://beginnerchess.org/sitemap.xml

Udelukke robotter fra at få adgang til indhold, der ikke er bestemt til forbrug vil sikre, at dit websted vil forblive søgeord optimeret på alle sider, og dermed bidrage til at fremme dit websted inden for søgemaskine placeringer. Sig for eksempel du har arbejdet hårdt på at optimere alle sider for søgeordet "vægtforøgelsen" og de forskellige lange haler. Dit arbejde kan filtreres ned i øjnene på søgemaskinen, hvis det var i stand til at gennemgå din login-side, privatlivets fred side og kontakt form.

Nogle SEO-eksperter hævder også, at Google straffer unge hjemmesider til fordel for ældre mere etablerede sites. Google tilsyneladende bruger Internet Archive (findes her ) til at bestemme alderen af et websted. Hvis den ikke kan finde sted i arkivet, det tilsyneladende antager site er en vis alder. Af denne grund, aktivt mange mennesker stoppe Internet Archive user-agent fra indeksere deres site. Dette kan gøres ved at inkludere følgende linjer:

User-agent: ia_archiver-web.archive.org
Disallow: /

Du kan også stoppe billede robotter fra at få adgang til dine billeder, hvis de har lånt Non-Stock billeder fra andre sites. Dette kan gøres sådan her:

User-agent: Googlebot-Image
Allow: /

Endelig kan robots.txt bruges til at udelukke robotter fra bestemte sider, der kan bruges til at vise indhold, der kan være til rådighed på andre websteder eller sider. Det hævdes ofte, at Google vil straffe dine vurderinger til visning af kopieret indhold. Jeg personligt kan ikke se dette som et stort problem, og mener, at kopieret indhold rent faktisk kan hjælpe dit websted rating i nogle tilfælde (mere om dette en anden dag). Anyway, for at stoppe en bot at få adgang til en bestemt side, tilføje følgende linjer:

User-agent: *
Disallow: */my-duplicate-page.html

Bemærk, at dette ikke er en idiotsikker metode. Hvis din underkendt side har links til det fra et andet sted, vil det stadig blive gennemgået af bots.

Jeg kunne blive ved, men jeg er sikker på at du er alle kede af nu. Du er velkommen til at kommentere nedenfor eller kontakte mig direkte, hvis du ønsker at vide mere.

Glad roboting.

Relaterede Stillinger

2 Svar til "robots.txt SEO Techniques"

  1. Bernier 29 November 2009 kl 3:19 am #

    Hej der,
    markbeljaars.com til GoogleReader!
    Tak
    Bernier


Trackbacks / Pingbacks.

  1. Robots.txt SEO teknikker - MarkBeljaars.com WP Air - 17. November, 2009

    [...] Se den originale post: Robots.txt SEO Teknikker - MarkBeljaars.com [...]

Efterlad et svar


SpinChimp Leaderboard 728x90