Ovaj post je dugo, ali važno. Preporučujem vam zgrabite šalicu vruće čokolade prije početka 
Ako niste čuli za datoteku robots.txt, to je jednostavno mala datoteku koja se nalazi u direktoriju web korijena koji upućuje tražilice o tome što oni mogu i ne mogu učiniti. Iako nije strogo provoditi, pretraživanje robota motor generalno će poštivati pravila postavljena naprijed u datoteci robots.txt. Uz pravilno konfiguriran robots.txt datoteku možete, na primjer, pokušaj da se odbijati od spam robota, recite Google ne indeksiraju vaše slike ili uputiti botove preskakanje stranica koje mogu sadržavati duple sadržaja.
Botovi su komadi softvera koje koristi tražilice tvrtki, spameri i sadržaj akumulatori za pretraživanje na internetu kako bi pronašli nove ili modificirati sadržaj. Bot posao je slijediti linkove na web stranice puzi sa stranice na stranicu i mjesta do mjesta. To je vrsta kao što su šest stupnjeva Kevin Bacon stvar. Slijedite dovoljno linkova i na kraju bi trebao naći sve sadržaje na internetu. To je razlog zašto veze su tako važni. Više povratne veze imate, lakše je za tražilice kako bi pronašli svoj sadržaj. Postoje doslovno milijuni botova slučajeva koćarenja neto u bilo kojem trenutku. Službeni naziv za bot je user-agent koji postoje tisuće. Omogućuje se Google za primjer. Google je mnogo različitih korisnika sredstva koja se koriste za indeksiranje Vaše web lokacije, ekstrakt slike i video, naći izvori s vijestima, pronaći mobitel sadržaja, provjerite svoje web lokacije za AdSense kvalitetu i tako dalje. Ova stranica pojedinosti kompletan popis poznatih korisnika agentima.
Datoteka robots.txt je oko za uzraste. To je zapravo je uvedena od strane AltaVista u 1994, ali sada ostaje osnovna hrana za web spiders. Za potpuni opis datoteke i njezina standardna notacija, posjetite ovdje . Ukratko, datoteku robots.txt možete ograničiti određene robota iz indeksiranja Vaše cijeli site ili neki njegov dio. Da biste to učinili, sve botove imaju poseban potpis. Na primjer, Google indeks bot zove Googlebot, Bing je bot zove MSNbot, a Yahoo bot se zove Yahoo! Slurp.
Upis u datoteku robots.txt može izgledati ovako:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Ovdje ćemo se reći agenta Slurp korisnika da se može pristupiti svim stranicama koje se nalazi u bilo kojem direktoriju koji počinju s "javnim", a nemaju pristup na stranice sa "_print" u URI.
Ispod je kompletan robots.txt datoteku za jedan od mojih WordPress sučelja eksperimentalne (Ja ću postavljati članak objasniti što mislim po eksperimentalnim web drugi dan). Lukav čitatelji mogu napomenuti da sam ja sve disallowing korisnički agenti iz određenih direktorija, i to samo dopuštajući neke specifične korisnički agenti pristup preostalim područjima moje stranice. Posljednje ažuriranje standardnih također omogućuje mi da popis mjesta moje stranice karti kako bi tražilice pronaći sve moje stranice.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Disallowing robota pristup sadržaju koji nisu namijenjeni za konzumaciju će osigurati da vaše stranice će ostati ključnu riječ optimiziran na svim stranicama, i tako pomoći promovirati Vaše web lokacije u tražilice ljestvici. Recimo, na primjer ste radili teško u optimizaciju svih stranica za ključne riječi "debljanje" i razne duge repove. Vaš rad se mogu filtrirati prema dolje u očima tražilice, ako je bio u mogućnosti da indeksira Vašu stranicu za prijavu, privatnost stranicu i kontakt obrazac.
Neki SEO stručnjaci također tvrde da je Google kažnjava mladog web stranice u korist starijih više osnovana stranicama. Google očito koristi Internet Archive (nalazi se ovdje ) kako bi se utvrdilo u dobi od položaj. Ako ne možete naći mjesto u arhivi, to očito pretpostavlja site je određene dobi. Iz tog razloga, mnogi ljudi aktivno zaustaviti Internet Archive user-agent iz indeksiranje njihovim stranicama. To se može učiniti, uključujući sljedeće linije:
User-agent: ia_archiver-web.archive.org
Disallow: /
Vi svibanj ištanje to i zaustaviti sliku robota u pristupu svoje slike, ako su posuđene ne-stock slike iz drugih mjesta. To se može učiniti ovako:
User-agent: Googlebot-Image
Allow: /
Konačno, može se koristiti robots.txt za isključenje robota iz određenih stranica koje se mogu koristiti za prikaz sadržaja koji mogu biti dostupni na drugim web-mjesta ili stranice. Često se tvrdi da će Google kazniti ocjene za prikazivanje duple sadržaja. Ja osobno ne vidim to kao veliki problem, a vjerujem da duple sadržaj zapravo može pomoći vašem site-rejting u nekim slučajevima (više o tome neki drugi dan). U svakom slučaju, da se zaustavi bot pristup na određenu stranicu, dodajte sljedeće linije:
User-agent: *
Disallow: */my-duplicate-page.html
Imajte na umu da to nije luđak-dokaz metoda. Ako odbijena stranica ima veze na to iz druge stranice, i dalje će biti indeksirani u robota.
Mogao bih zadržati ide, ali siguran sam da ste sve dosadno do sada. Slobodno komentar ispod ili me kontaktirajte izravno, ako želite znati više.
Sretan roboting.