17. november 2009 2 Kommentaarid

Robots.txt SEO Techniques

http://markbeljaars.com/wp-content/plugins/sociofluid/images/digg_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/reddit_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/stumbleupon_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/delicious_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/furl_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/technorati_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/facebook_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/yahoobuzz_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/mixx_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/twitter_48.png~~V

See postitus on pikk, kuid olulisem. Ma soovitan teil haarata tassi kuuma šokolaadi enne algust :)

Kui te ei ole kuulnud robots.txt faili, see on lihtsalt väike fail, mis asub teie veebilehe juurkataloogi, mis juhendab otsingumootorid, mida nad saavad teha ja mida mitte. Kuigi see ei ole rangelt, otsingumootor robotid üldjuhul järgima kehtestatud edasi robots.txt faili. Mis õieti konfigureeritud robots.txt faili saab näiteks katse tõrjuma välja spam bots, ütle google mitte index oma pildid ja juhendada robotid vahele lehekülgi, mis võib sisaldada dubleerida sisu.

Robotid on tükid poolt kasutatav tarkvara otsingumootorite ettevõtete, rämpsposti ja sisu akud võrrelda internetti leida uut või muudetud sisu. Bot ülesanne on järgida lingid kodulehel indekseerimise lehelt lehele ja veebilehelt. See on selline nagu Six Degrees of Kevin Bacon asi. Jälgi piisavalt linke ja siis tuleb lõpuks leida kõik sisu on net. See on põhjus, miks lingid on nii oluline. Rohkem tagasilinkide oled, seda kergem on otsingumootoreid, et leida oma sisu. Seal on sõna otseses mõttes miljoneid bot juhtudel traalimine net korraga. Ametlik tähtaeg bot on kasutaja-agent, mis on tuhandeid. Võtame Google näiteks. Google on palju erinevaid kasutaja kasutatavad ained indeks saidi, ekstrakt pilte ja videoid, leida uusi kanaleid leida mobiiltelefoni sisu kontrollida saidi Adsense kvaliteedi ja nii edasi. See sait details täielik nimekiri tuntud kasutaja ainetega.

Robots.txt failis on olnud juba aegade. See oli tegelikult kehtestatud AltaVista aastal 1994, kuid nüüd jääb põhitoit web ämblikud. Täieliku kirjelduse fail ja selle standard märke, külastada siin . Ühesõnaga, robots.txt faili saab piirata teatud robotid indekseerimise kogu saidi või selle osa. Selleks, kõik robotid on eriline allkirja. Näiteks Google indeksisse bot nimetatakse Googlebot, Bing bot nimetatakse MSNbot ja Yahoo bot nimetatakse Yahoo! Hörppiä.

Kande robots.txt faili võib välja nägema selline:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html

Siin me ei räägi Hörppiä kasutaja agent, et ta pääseb kõik lehed asuvad kõik kataloogis algab sõnadega "avalik", ja kellel puudub juurdepääs lehekülgi "_print" on URI.

Allpool on täielik robots.txt faili üks mu eksperimentaalne WordPress saidid (ma postitamiseks artikkel selgitab, mida ma mõtlen eksperimentaalne saidi teisele päevale). Nutikas lugeja võib märkida, et ma olen lubades kõik kasutaja agentide kataloogid ja võimaldavad vaid mõne konkreetse kasutaja agendid juurdepääsu ülejäänud valdkondades sivustoni. Viimastel värskendus standard võimaldab ka mind nimekirja asukoha minu saidi kaart aitab otsingumootorid leiavad kõik oma lehekülgedel.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://beginnerchess.org/sitemap.xml

Lubades robotid juurdepääsu sisu ei tarbimiseks mõeldud tagab, et teie sait jääb märksõna optimeeritud kõigil lehtedel, aidates edendada saidi jooksul otsingumootori paremusjärjestusest. Ütle näiteks olete teinud tublit tööd on optimeerida kõikide lehekülgede jaoks märksõna "kaalutõus" ja erinevad pikad sabad. Sinu töö võib filtreeritud maha silmis otsingumootor, kui see oli võimalik võrrelda oma sisselogimise lehe privaatsuse lehel ja kontakt vormi.

Mõned SEO eksperdid väidavad, et Google karistab noorte veebilehed kasuks vanemad rohkem kehtestatud saitidele. Google ilmselt kasutab Internet Archive (leitud siit ) vanuse kindlaks saidile. Kui ei leia saidi arhiivist, see ilmselt eeldab, et sait on teatud vanuse. Sel põhjusel on paljud inimesed aktiivselt peatada Internet Archive kasutaja-agent indekseerimise oma koduleheküljel. Seda saab teha lisades järgnevad read:

User-agent: ia_archiver-web.archive.org
Disallow: /

Võite ka lõpetada pilti robotid juurdepääsu oma pilte, kui nad on laenatud mitte-aktsia pilte teistele saitidele. Seda saab teha näiteks nii:

User-agent: Googlebot-Image
Allow: /

Lõpuks robots.txt abil saab välistada robotid kindlaid lehekülgi, mis võib kasutada näidata sisu, mis võivad olla teistele saitidele või lehekülge. Sageli on väidetud, et Google karistada oma reitingud väljapanek dubleerida sisu. Mina isiklikult ei näe seda kui suur probleem ja usun, et dubleerida sisu võib tegelikult aidata saidi hinnang mõnel juhul (rohkem sellest teisele päevale). Igatahes, lõpetada bot juurdepääsu kindlat lehekülge, lisage järgnevad read:

User-agent: *
Disallow: */my-duplicate-page.html

Pange tähele, et see ei ole lollikindlat meetodit. Kui teie keelustada lehel on lingid ta teise koha, see ikkagi indekseeritakse robotid.

Ma ei jätka, kuid ma olen kindel, et te kõik igav nüüd. Julgelt kommentaar allpool või võtke otse ühendust minuga, kui soovite rohkem teada.

Palju roboting.

Seonduvad postitused

2 Responses to "Robots.txt SEO Techniques"

  1. Bernier 29. november 2009 kell 03:19 am #

    Hi there,
    markbeljaars.com et GoogleReader!
    Tänan
    Bernier


Trackbacks / Pingbacks.

  1. Robots.txt SEO Techniques - MarkBeljaars.com WP Air - 17. November, 2009

    [...] Vt esialgne postitus: Robots.txt SEO Techniques - MarkBeljaars.com [...]

Jäta vastus


SpinChimp Leaderboard 728x90