17 Nobyembre 2009 2 Comments

Robots.txt SEO diskarte

http://markbeljaars.com/wp-content/plugins/sociofluid/images/digg_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/reddit_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/stumbleupon_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/delicious_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/furl_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/technorati_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/facebook_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/yahoobuzz_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/mixx_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/twitter_48.png

Ang post na ito ay isang mahaba ngunit mahalagang isa. Inirerekumenda ko ka grab ng isang tasa ng mainit na tsokolate bago ang iyong simula :)

Kung hindi mo pa narinig ng robots.txt file, ito ay lamang ng isang maliit na file na matatagpuan sa root ng iyong website sa direktoryo na instructs ang mga search engine sa kung ano ang maaari nilang at hindi maaaring gawin. Bagaman hindi mahigpit na ipinapatupad, search engine bots ay pangkalahatan respetuhin ang mga patakaran na na-set forward sa robots.txt file. Sa pamamagitan ng isang maayos na isinaayos na robots.txt file na maaari mong, halimbawa, ang pagtatangkang palayasin spam bots, sabihin sa google hindi sa index ng iyong mga imahe o atasan ang mga bot upang laktawan ang mga pahina na maaaring maglaman ng dobleng nilalaman.

Bot ay mga piraso ng software na ginagamit ng mga kumpanya ng search engine, mga spammer at mga nilalaman accumulators i-crawl ang internet upang mahanap ang mga bago o binago na nilalaman. Trabaho isang bot ay upang sundin ang mga link sa isang website na pag-crawl mula sa pahina sa pahina at site sa site. Ito ay uri ng tulad ng isang Six Degrees ng Kevin Bacon bagay. Sundin ang sapat na mga link at dapat huli mong mahanap ang lahat ng nilalaman sa net. Ito ay kung bakit ang mga backlink ay kaya mahalaga. Ang mas maraming mga backlink na mayroon ka, mas madali ito ay para sa mga search engine upang mahanap ang iyong nilalaman. May mga literal milyon-milyong ng mga pangyayari sa bot trawling ang net sa anumang oras. Ang opisyal na kataga para sa isang bot ay isang user-agent na kung saan may mga libo-libong. Hinahayaan Google para sa halimbawa. Ang Google ay may maraming iba't ibang mga user-ahente na ginamit upang index ang iyong site, kunin ang mga imahe at mga video, hanapin ang balita feed, hanapin ang mobile na telepono nilalaman, suriin ang iyong site para sa Adsense kalidad at iba pa. Ito site detalye ng isang kumpletong listahan ng mga kilalang user-ahente.

Ang robots.txt file ay nai-paligid para sa mga edad. Ito ay talagang ipinakilala sa pamamagitan ng AltaVista noong 1994, ngunit ngayon ay nananatiling ng mga sangkap na hilaw na pagkain para sa mga spider web. Para sa isang kumpletong paglalarawan ng file at ang mga standard notation, bisitahin ang dito . Sa maikli, ang isang robots.txt file ay maaaring paghigpitan ang mga tiyak na mga bot mula sa pag-crawl ang iyong buong site o bahagi nito. Upang gawin ito, ang lahat ng mga bot magkaroon ng isang espesyal na lagda. Halimbawa, ang index ng Google bot ay tinatawag na sa Googlebot, ang Bing ng bot ay tinatawag MSNbot, at ang bot ng Yahoo ay tinatawag na Yahoo! Slurp.

Ang isang entry sa file na robots.txt ay maaaring magmukhang ganito:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html

Narito kami ay nagsasabi ang Slurp user agent na maaari itong ma-access ang lahat ng mga pahina na matatagpuan sa anumang direktoryo na nagsisimula sa "pampublikong", at walang access sa mga pahina na may "_print" sa URI.

Nasa ibaba ang isang kumpletong robots.txt file para sa isa sa aking mga eksperimentong mga site WordPress (kukunin ko na mag-post ng isang artikulo na nagpapaliwanag kung ano ang ibig sabihin ko sa pamamagitan ng eksperimentong site sa isa pang araw). Matalino mga mambabasa ay maaaring tandaan na ako ay disallowing lahat ng mga ahente ng gumagamit mula sa partikular na mga direktoryo, at tanging nagpapahintulot sa ilang tiyak na mga ahente sa user ng access sa ang natitirang bahagi ng aking site. Isang kamakailang mga update sa karaniwang ay nagpapahintulot din ako sa listahan ang lokasyon ng aking site map upang makatulong sa mga search engine na mahanap ang lahat ng aking mga pahina.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://beginnerchess.org/sitemap.xml

Disallowing bots mula sa pag-access sa nilalaman ay hindi inilaan para sa pagkonsumo ay matiyak na ang iyong site ay mananatiling keyword na-optimize sa lahat ng mga pahina, kaya pagtulong naisulong ang iyong site sa loob ng ranggo sa search engine. Say para sa halimbawa mo na nagtrabaho nang husto sa-optimize ng lahat ng mga pahina para sa keyword na "timbang makakuha ng" at ang iba't ibang mga mahaba tails. Ang iyong trabaho ay maaaring filter down sa mata ng mga search engine na kung ito ay ma-crawl ang iyong login page, pahina ng privacy at contact form.

Ilang mga SEO eksperto din magtaltalan na Google punishes kabataan website sa pabor ng mas lumang mga mas itinatag site. Google tila ay gumagamit ng Internet Archive (matatagpuan sa dito) upang matukoy ang edad ng isang site . Kung hindi mahanap ang site sa archive, tila ito Ipinagpapalagay na ang site ay isang tiyak na edad. Para sa kadahilanang ito, maraming mga tao ay aktibong itigil ang Internet Archive user-agent mula sa index ang kanilang mga site. Ito ay maaaring gawin sa pamamagitan ng kasama ang mga sumusunod na mga linya:

User-agent: ia_archiver-web.archive.org
Disallow: /

Baka gusto din itigil ang bot imahe mula sa access sa iyong mga larawan kung ang mga ito hiram non-stock na mga imahe mula sa iba pang mga site. Ito ay maaaring tapos gusto kaya:

User-agent: Googlebot-Image
Allow: /

Panghuli, ang robots.txt ay maaaring gamitin upang ibukod ang mga bot mula sa mga partikular na mga pahina na maaaring gamitin upang ipakita ang nilalaman na maaaring magamit sa ibang mga site o mga pahina. Nagtalo Ito ay madalas na ang Google ay parusahan ang iyong mga rating para sa pagpapakita ng dobleng nilalaman. Hindi ko personal na makita ang bilang isang malaking isyu at naniniwala na ang dobleng nilalaman ay maaaring talagang matulungan ang rating ng iyong site sa ilang mga pagkakataon (ang nalalaman tungkol sa ibang araw). Pa rin, upang ihinto ang isang bot mula sa pag-access ng isang tiyak na pahina, idagdag ang sumusunod na mga linya:

User-agent: *
Disallow: */my-duplicate-page.html

Tandaan na ito ay hindi tanga-patunay na paraan. Kung ang iyong hindi pinayagan na pahina ay naka-link dito mula sa ibang site, ito pa rin ma-crawl sa pamamagitan ng ang mga bot.

Kaya kong panatilihin ang pagpunta, ngunit ako ba na lahat kayo ay nainis sa ngayon. Huwag mag-atubiling komento sa ibaba o makipag-ugnay sa akin nang direkta kung nais mong madagdagan ang nalalaman.

Maligayang roboting.

Tags: , , , robot robots.txt engine SEO spam pamamaraan user agent

SpinChimp Leaderboard 728x90