Acest post este unul lung, dar important. Vă recomandăm te apuca de o ceaşcă de ciocolată fierbinte înainte de a începe dvs. 
Dacă nu aţi auzit de fişier robots.txt, acesta este pur şi simplu un fişier mici situate în directorul rădăcină site-ul care instruiesc motoarele de căutare pe ceea ce poate şi ce nu pot face. Deşi nu sunt strict aplicate, roboţii motorul de căutare va respecta, în general, normele stabilite înainte în fişierul robots.txt. Cu un fişier robots.txt configurat corect poţi, de exemplu, încercarea de a se îngriji de off impotriva spamului, spune Google nu pentru a indexa imagini sau instrui boti pentru a sări peste pagini care pot conţinut duplicat.
Botii sunt bucăţi de software-ul utilizat de către societăţile de motoare de căutare, spammer-ilor şi acumulatori să acceseze cu crawlere conţinutul pe internet pentru a găsi conţinut nou sau modificat. Un bot de locuri de muncă este de a urma link-uri pe un site web crawling de la pagina la pagina si la site la site. E un fel de Six Degrees of Kevin Bacon lucru. Urmaţi link-uri suficient şi ar trebui să găsiţi în cele din urmă toate conţinut de pe net. Acesta este motivul pentru backlink-uri sunt atat de importante. Backlink-uri ai mai multe, cu atât mai uşor este pentru motoarele de căutare pentru a găsi conţinutul dvs.. Există literalmente milioane de instanţe bot pescuitului cu traule net la un moment dat. Termenul oficial pentru un bot este un user-agent din care există mii. Sa luam Google, de exemplu. Google are multe user-agent utilizat pentru a indexa site-ului dvs., extract de imagini şi clipuri video, găsi fluxuri de ştiri, găsiţi conţinutul telefonului mobil, verificaţi site-ul dvs. pentru calitate Adsense şi aşa mai departe. Acest site-ul detalii o listă completă a cunoscut user-agent.
Fişierul robots.txt a fost în jur de vârstele. Acesta a fost introdus de fapt, AltaVista în 1994, dar acum rămâne un aliment de baza pentru web păianjeni. Pentru o descriere completă a dosarului şi notarea sa standard, vizitaţi aici . Pe scurt, un fişier robots.txt poate restricţiona impotriva specifice să acceseze cu crawlere site-ul tău întreg sau o parte a acesteia. Pentru a face acest lucru, toţi roboţii au o semnătură specială. De exemplu, bot Google indicele este numit Googlebot, bot Bing este numit msnbot, şi bot Yahoo se numeste Yahoo! Slurp.
O intrare în fişierul robots.txt poate arăta astfel:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Aici suntem spune agentului utilizator Slurp că acesta poate accesa toate paginile amplasate in orice director care încep cu "public", şi nu au acces la pagini cu "_print" în URI.
Mai jos este un fişier robots.txt complet pentru unul dintre site-urile mele experimentale WordPress (voi posta un articol explica ce vreau să spun pe site-ul experimental o altă zi). Cititorii abil poate să reţineţi că eu sunt refuzare toţi agenţii din ghidul de directoare specifice, şi numai permiţând unor agenti specifice de acces ale utilizatorilor la celelalte domenii de site-ul meu. O actualizare recentă a standardului, de asemenea, permite-mi să lista locaţia harta site-ului meu pentru a ajuta motoarele de căutare găsi toate paginile mele.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Interzicând roboţii de la accesarea de conţinut nu sunt destinate consumului se va asigura că site-ul tău va rămâne cuvântul cheie optimizate pe toate paginile, contribuind astfel promova site-ul tău în Topul motor de căutare. Spune, de exemplu, ati muncit din greu la optimizarea toate paginile pentru "creşterea în greutate" de cuvinte cheie şi diverse cozi lungi. Munca ta poate fi filtrate în ochii a motorului de căutare în cazul în care a fost în măsură să acceseze cu crawlere pagina de autentificare, pagina de confidenţialitate şi formularul de contact.
Unii experţi susţin că, de asemenea, SEO Google pedepseşte site-uri în favoarea tinerilor de site-uri mai mari mai stabilit. Google foloseşte aparent Internet Archive (găsite aici ) pentru a determina vârsta de un site. În cazul în care nu se poate găsi pe site-ul în arhivă, aceasta presupune aparent site-ul este o anumită vârstă. Din acest motiv, mulţi oameni nu mai activ Internet Archive user-agent de la indexarea site-ul lor. Acest lucru poate fi realizat prin includerea următoarele linii:
User-agent: ia_archiver-web.archive.org
Disallow: /
Aţi putea dori, de asemenea, să oprească roboţii imagini de la accesarea imaginile dumneavoastră dacă acestea au împrumutat non-stoc imagini de la alte site-uri. Aceasta se poate face astfel:
User-agent: Googlebot-Image
Allow: /
În cele din urmă, robots.txt poate fi folosit pentru a exclude de la boti pagini specifice care pot fi utilizate pentru a afişa conţinut care poate fi disponibile pe alte site-uri sau pagini. Este de multe ori a susţinut că Google va pedepsi rating-uri pentru afişarea conţinutului duplicat. Eu personal nu văd acest lucru ca pe o problemă mare şi cred că de conţinut duplicat poate ajuta de fapt, evaluare site-ului dvs. în unele cazuri (multe despre aceasta o altă zi). Oricum, pentru a opri un robot să aibă acces la o anumită pagină, adăugaţi următoarele linii:
User-agent: *
Disallow: */my-duplicate-page.html
Reţineţi că acest lucru nu este o metodă de prost-dovada. Dacă pagina dvs. nepermis a link-uri de la un alt site, acesta va fi în continuare cu crawlere de către roboţii.
Aş putea continua să mergi, dar eu sunt sigur că voi toţi sunteţi plictisit de acum. Simţiţi-vă liber pentru a comenta mai jos sau contactati-ma direct, dacă doriţi să aflaţi mai multe.
Roboting fericit.