Ang post na ito ay isang mahaba ngunit mahalagang isa. Na inirerekumenda ako makakuha ng isang tasa ng mainit na tsokolate bago ang iyong simula 
Kung hindi mo pa narinig ng robots.txt file, ito ay lamang ng isang maliit na file na matatagpuan sa iyong website sa direktoryo ugat na instructs mga search engine sa kung ano ang maaaring sila at hindi maaaring gawin. Kahit na hindi mahigpit na ipinatupad, bot ng search engine ay karaniwang respetuhin ang mga patakaran na na-set forward sa robots.txt file. Sa pamamagitan ng isang maayos na isinaayos na robots.txt file na maaari mong, halimbawa, ang pagtatangkang palayasin spam bots, sabihin sa google hindi sa index ng iyong mga imahe o atasan ang mga bot upang laktawan ang mga pahina na maaaring maglaman ng dobleng nilalaman.
Bot ay mga piraso ng software na ginagamit ng mga kumpanya ng search engine, mga spammer at accumulators ng nilalaman upang i-crawl ang internet upang makahanap ng bago o binagong nilalaman. Trabaho Ang bot ay upang sundin ang mga link sa isang website na pag-crawl mula sa pahina sa pahina at site sa site. Ito ay uri ng tulad ng isang Six Degrees ng Kevin Bacon bagay. Sundin ang ang sapat link at dapat huli mong mahanap ang lahat ng nilalaman sa net. Ito ay kung bakit ang mga backlink ay kaya mahalaga. Ang mas maraming mga backlink mo, mas madali ito ay para sa mga search engine upang mahanap ang iyong nilalaman. May mga literal milyon-milyong ng mga pagkakataon ng bot trawling ang net sa anumang oras. Ang opisyal na kataga para sa isang bot ay isang user-agent ng kung saan may mga libo-libong. Hinahayaan tumagal ang Google para sa halimbawa. Ang Google ay may maraming iba't ibang mga user-ahente na ginamit sa index ang iyong site, kunin ang mga imahe at mga video, hanapin ang mga balita feed, hanapin ang mobile na telepono ng nilalaman, suriin ang iyong site para sa kalidad ng Adsense at iba pa. Ito site detalye ng isang kumpletong listahan ng mga kilala user-ahente.
Ang robots.txt file ay sa paligid para sa mga edad. Ito ay talagang ipinakilala sa pamamagitan ng AltaVista noong 1994, ngunit ngayon ay nananatiling ng mga sangkap na hilaw na pagkain para sa mga spider web. Para sa isang kumpletong paglalarawan ng mga file at ang standard notation, bisitahin dito . Sa maikling salita, ang isang robots.txt file ay maaaring rendahan ang tiyak na mga bots sa pag-crawl ang iyong buong site o bahagi nito. Upang gawin ito, ang lahat ng mga bot magkaroon ng isang espesyal na lagda. Halimbawa, ang index ng Google bot ay tinatawag na Googlebot, ang Bing ng bot ay tinatawag na MSNbot, at Yahoo ng bot ay tinatawag na Yahoo! Slurp.
Isang entry sa file na robots.txt ay maaaring magmukhang ganito:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Narito kami ay nagsasabi Slurp user agent na maaari itong ma-access ang lahat ng mga pahina na matatagpuan sa anumang direktoryo na nagsisimula sa "pampublikong", at walang access sa mga pahina ng "_print" sa URI.
Nasa ibaba ang isang kumpletong robots.txt file para sa isa sa aking mga eksperimentong mga site WordPress (kukunin ko na mag-post ng isang artikulo na nagpapaliwanag kung ano ang ibig sabihin ko sa pamamagitan ng eksperimentong site sa isa pang araw). Matalino mga mambabasa ay maaaring tandaan na ako disallowing lahat ng mga ahente ng gumagamit mula sa partikular na direktoryo, at lamang na nagpapahintulot sa ilang tiyak na mga ahente ng gumagamit access ang natitirang lugar ng aking site. Pinapayagan din ng isang kamakailan-lamang na-update sa standard na sa akin na ilista ang lokasyon ng aking site map upang makatulong sa mga search engine na mahanap ang lahat ng aking mga pahina.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Disallowing bot mula sa pag-access sa nilalaman ay hindi inilaan para sa paggamit ay matiyak na ang iyong site ay mananatiling keyword na-optimize sa lahat ng mga pahina, kaya pagtulong naisulong ang iyong site sa loob ng search engine ranggo. Sabihin halimbawa na nagtrabaho nang husto sa pag-optimize ng lahat ng mga pahina para sa keyword na "timbang makamit" at ang iba't ibang mga mahaba tails. Ang iyong trabaho ay maaaring filter sa mata ng mga search engine kung ito ay ma-crawl ang iyong login page, pahina ng privacy at contact form.
Ang ilang mga SEO eksperto din magpakilala na punishes ng Google ang mga batang website sa pabor ng mas lumang higit pang mga itinatag na mga site. Tila gumagamit ng Google ang Internet Archive (nahanap dito ) upang matukoy ang edad ng isang site. Kung hindi ito maaaring mahanap ang site sa archive, ito tila Ipinagpapalagay na ang site ay isang tiyak na edad. Para sa kadahilanang ito, maraming mga tao ay aktibong itigil ang Internet Archive user-agent mula sa paglilista ng kanilang site. Ito ay maaaring gawin sa pamamagitan ng kasama ang mga sumusunod na linya:
User-agent: ia_archiver-web.archive.org
Disallow: /
Baka gusto mong din na itigil ang mga bot ng imahe mula sa access ng iyong mga larawan kung sila hiniram non-stock na mga imahe mula sa iba pang mga site. Ito ay maaaring tapos na tulad ng sa gayon:
User-agent: Googlebot-Image
Allow: /
Panghuli, ang robots.txt ay maaaring magamit upang ibukod ang mga bot mula sa mga partikular na mga pahina na maaaring gamitin upang ipakita ang nilalaman na maaaring magamit sa ibang mga site o mga pahina. Nagtalo ito ay madalas na ang Google ay parusahan ang iyong mga rating para sa pagpapakita ng dobleng nilalaman. Hindi ko personal na makita ang bilang isang malaking isyu at naniniwala na ang dobleng nilalaman ay maaaring aktwal na matulungan ang rating ng iyong site sa ilang mga pagkakataon (ang nalalaman tungkol sa ito isa pang araw). Pa rin, upang ihinto ang isang bot mula sa pag-access ng isang tiyak na pahina, idagdag ang sumusunod na linya:
User-agent: *
Disallow: */my-duplicate-page.html
Tandaan na ito ay hindi isang tanga-patunay na paraan. Kung ang iyong hindi pinayagan na pahina ay may mga link dito mula sa ibang site, ito pa rin ma-crawl sa pamamagitan ng ang mga bot.
Maaari ko bang panatilihin ang pagpunta, ngunit ako sigurado na lahat mo ay nababato sa ngayon. Huwag mag-atubili na puna sa ibaba o makipag-ugnay sa akin nang direkta kung nais mong madagdagan ang nalalaman.
Ang masaya roboting.