Ovaj post je dugo, ali važno. Preporučujem vam da zgrabite šalicu vruće čokolade prije početka 
Ako niste čuli za robots.txt datoteku, to je samo mala datoteka nalazi u direktoriju web korijena koji upućuje tražilice na ono što može i ne može učiniti. Iako nije strogo provoditi, traži botova motor generalno će poštivati pravila navedenih naprijed u datoteci robots.txt. Uz pravilno konfiguriran robots.txt datoteku možete, na primjer, pokušaj da se odbijati od spam robota, recite Google ne indeksirati vaše slike ili uputiti botova preskočiti stranice koje mogu sadržavati duple sadržaja.
Botovi su komadi softvera koje koristi tražilice tvrtkama, spameri i akumulatora za indeksiranje sadržaja na internetu naći novo ili mijenjati sadržaj. Bot, posao je da slijedite linkove na web stranice indeksiranja od stranice do stranice i stranice na stranicu. To je vrsta kao šest stupnjeva Kevin Bacon stvar. Slijedite dovoljno linkove i na kraju bi trebao naći sve sadržaje na netu. To je razlog zašto povratne veze su toliko važne. Što više povratne veze imate, lakše je za tražilice pronaći svoj sadržaj. Postoje doslovno milijuni BOT slučajevima koćarenja mrežu u bilo kojem trenutku. Službeni naziv za bot je user-agent koji postoje tisuće. Google Dozvoljava uzeti za primjer. Google ima mnogo različitih korisnika, sredstva koja se koriste na indeks vaše stranice, izvuci slike i video, naći izvori s vijestima, naći mobilni telefon sadržaja, provjerite svoje web lokacije za AdSense kvalitete i tako dalje. Ova stranica detalji kompletan popis poznatih krajnjim korisnicima sredstava.
Datoteka robots.txt je za oko dobi. To je zapravo bio uveo AltaVista u 1994, ali sada ostaje osnovna hrana za web pauka. Za potpuni opis datoteke i svom standardnom bilježenja, posjetite ovdje . Ukratko, datoteka robots.txt mogu ograničiti određene robota da indeksira cijeli site ili njegov dio. Da biste to učinili, sve neprijavljene suradnike imaju posebnu potpis. Na primjer, Googleov indeks bot se zove Googlebot, Bing je bot se zove MSNbot i Yahoo bot se zove Yahoo! Slurp.
Ulazak u robots.txt datoteci može izgledati ovako:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Ovdje se govori agent Slurp korisnički da mogu pristupiti sve stranice koje se nalaze u bilo kojem direktoriju koje počinju sa "javni", a nemaju pristup stranicama s "_print" u URI-ju.
Ispod je kompletan robots.txt datoteku za jedan od mojih WordPress sučelja (eksperimentalnih ću objaviti članak objašnjava ono što mislim pod eksperimentalnim mjestu još jedan dan). Lukav čitatelji mogu napomenuti da sam disallowing sve korisničke sredstva iz određenih direktorija, i to samo dopuštajući neke specifične korisnički agenti pristup preostalim područjima moje stranice. Posljednja izmjena na standard također omogućuje mi da popis mjesto moje site map kako bi tražilice pronaći sve moje stranice.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Disallowing robota iz pristupa sadržaju koji nije namijenjen za konzumaciju će osigurati da vaše web stranice će ostati ključna optimiziran na svim stranicama, čime promovirati svoju web lokaciju u tražilicu ljestvici. Recimo na primjer da su naporno radili na optimizaciji svih stranica za ključne riječi "debljanje" i razne duge repove. Vaš rad se mogu filtrirati prema dolje u očima tražilice, ako je u stanju indeksirati Vašu prijavu na stranicu, i stranicu o privatnosti kontaktni obrazac.
Neki SEO stručnjaci također tvrde da Google kažnjava mlade web stranice u korist starijih već postojećim stranicama. Google očito koristi Internet Archive (naći ovdje ) kako bi se utvrdilo u dobi od položaj. Ako ne možete naći mjesto u arhive, to očito pretpostavlja da je site je određene dobi. Iz tog razloga, mnogi ljudi aktivno zaustaviti Internet Archive user-agent iz indeksiranje njihove stranice. To se može učiniti, uključujući sljedeće linije:
User-agent: ia_archiver-web.archive.org
Disallow: /
Vi svibanj također žele zaustaviti slike robota u pristupu svoje slike, ako su posudili ne zaliha slike iz drugih mjesta. To se može učiniti kao što je na sljedeći način:
User-agent: Googlebot-Image
Allow: /
Konačno, može se koristiti robots.txt za isključenje robota iz određene stranice koje se mogu koristiti za prikaz sadržaja koji bi mogli biti dostupni na drugim stranicama i stranicama. Često se tvrdi da je Google će kazniti svoje ocjene za prikazivanje duple sadržaja. Ja osobno ne vidim to kao veliki problem i vjerujem da duple sadržaj zapravo može pomoći vašem web stranice ocjena u nekim slučajevima (više o tome drugi dan). U svakom slučaju, za zaustavljanje botova pristupanju određenu stranicu, dodajte sljedeće linije:
User-agent: *
Disallow: */my-duplicate-page.html
Imajte na umu da to nije budala-dokaz metoda. Ako je Vaš odbijena stranica ima veze na njega iz druge stranice, i dalje će biti indeksirana putem robota.
Mogao bih zadržati ide, ali siguran sam da su svi dosadno do sada. Slobodno komentirajte ispod ili me kontaktirajte izravno, ako želite znati više.
Sretan roboting.