Robots.txt Teknikat SEO
Ky post është e gjatë por të rëndësishëm. Unë ju rekomandojmë që kap një filxhan çokollatë të nxehtë para se të filloni ![]()
Nëse ju nuk keni dëgjuar për dosjen robots.txt, ajo është thjesht një skedar të vogël që ndodhet në directory rrënjë faqen tuaj te internetit që udhëzon motorët e kërkimit në atë që ata mund dhe nuk mund të bëjë. Edhe pse nuk është zbatuar në mënyrë rigoroze, bots motor kërkimi në përgjithësi do të respektojnë rregullat e vendosura përpara në dosjen robots.txt. Me një fotografi robots.txt konfiguruar si duhet ju mund, për shembull, përpjekje për të shmangur spam bots, them mos të indeksit google imazhet tuaja ose udhëzojnë bots të kaloni faqet që mund të përmbajnë përmbajtjen e kopjuar.
Bots janë pjesë e programeve të përdorura nga kompanitë search engine, spammers dhe akumulatorët përmbajtje të zvarritem në internet për të gjetur përmbajtje të re ose të modifikuar. Punë Një bot është të ndiqni lidhjet në një faqe interneti zvarritje nga faqja në faqe dhe faqja në faqe. Është si një lloj Gjashtë Diplomat e gjë e Kevin Bacon. Ndiqni lidhjet e mjaftueshme dhe ju duhet përfundimisht të gjeni të gjitha përmbajtjen në net. Kjo është arsyeja pse backlinks janë kaq të rëndësishme. Backlinks më keni, më lehtë është për motorët e kërkimit për të gjetur përmbajtjen tuaj. Ka fjalë për fjalë miliona raste bot trawling neto në çdo kohë. Termi zyrtar për një bot është një përdorues-agjent i që ka mijëra. Lejon të marrë Google për shembull. Google ka shumë të ndryshme user-agjentë të përdoret për indeksi faqen tuaj, ekstrakt imazhe dhe video, të gjejnë Prurje, Lajme gjeni përmbajtjen e telefonisë celulare, shikoni faqen tuaj për cilësinë Adsense dhe kështu me radhë. Kjo faqe detajet listën e plotë të njohur user-agjentë.
File robots.txt ka qenë rreth për moshat. Ajo u prezantua në fakt nga AltaVista në vitin 1994, por tani mbetet një ushqimi kryesor për spiders web. Për një përshkrim të plotë të lëndës dhe simbol të saj standarde, vizitoni ketu . Me pak fjalë, një fotografi robots.txt mund të kufizojnë bots specifike nga faqja e juaj zvarritje të gjithë ose pjesë të saj. Për ta bërë këtë, të gjithë kanë një nënshkrim bots veçantë. Për shembull, bot Google indeksi quhet Googlebot, bot Bing është quajtur MSNbot, dhe bot Yahoo është quajtur Yahoo! slurp.
Një hyrje në dosjen robots.txt mund të duket si ky:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Këtu ne jemi duke u thënë agjenti i përdoruesit slurp se ajo mund të përdorni të gjitha faqet e vendosur në ndonjë Lista fillon me "publik", dhe nuk kanë qasje në faqet me "_print" në URI.
Më poshtë është një file të plotë robots.txt për një nga faqet e mia eksperimentale WordPress (unë do të postoni një artikull të shpjeguar se çfarë dua të them me vend eksperimental një ditë tjetër). Lexuesit i zgjuar mund të vini re se unë jam disallowing të gjithë agjentët e përdoruesit nga directories specifike, dhe vetëm duke lejuar disa agjentë të veçantë përdorues qasje në zonat e mbetura të web faqen time. Një rinovuar kohëve të fundit në standarde lejon gjithashtu mua në listën vendndodhjen e hartës web faqen time për të ndihmuar në motorët e kërkimit të gjeni të gjitha faqet e mia.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Disallowing bots nga qasja në përmbajtje jo të destinuara për konsum do të sigurojë që faqja e juaj do të mbetet fjalen optimizuar në të gjitha faqet, duke ndihmuar të promovuar faqen tuaj në renditjen search engine. Thuaj për shembull ju keni punuar shumë në të gjitha faqet e optimizuar për "të fituar peshë" fjalen dhe bishtin e ndryshme të gjatë. Puna juaj mund të jetë filtruar poshtë në sytë e motorit të kërkimeve në qoftë se ajo ishte në gjendje të zvarritem faqen tuaj login, faqe private dhe formularin e kontaktit.
Disa ekspertë SEO gjithashtu argumentojnë se Google ndëshkon faqet e internetit të rinj në favor të vendeve të vjetra më të themeluar. Google me sa duket përdor Internet Archive (gjenden këtu ) për të përcaktuar moshën e një vendi. Nëse nuk mund të gjejë vend në arkivin, që me sa duket supozon faqe është një moshë të caktuar. Për këtë arsye, shumë njerëz në mënyrë aktive të ndaluar Internet Archive user-agjent nga indeksimit faqen e tyre. Kjo mund të bëhet duke përfshirë linjat e mëposhtme:
User-agent: ia_archiver-web.archive.org
Disallow: /
Ju mund të dëshironi të gjithashtu të ndaluar bots imazhin nga qasja në fotografitë tuaj, nëse ata kanë marrë hua jo-stock imazhe nga zona të tjera. Kjo mund të bëhet si kështu:
User-agent: Googlebot-Image
Allow: /
Së fundi, robots.txt mund të përdoret për të përjashtuar nga faqet specifike bots që mund të përdoren për të shfaqur përmbajtjen që mund të jenë në dispozicion në faqet e tjera ose faqe. Shpesh thuhet se Google do të dënoj ratings tuaj për të shfaqur përmbajtjen e kopjuar. Unë personalisht nuk e shoh këtë si një çështje e madhe dhe besoj se përmbajtjen e kopjuar fakt mund të ndihmojë Vlerësimi i sitit tuaj në disa raste (më shumë për këtë një ditë tjetër). Gjithsesi, për të ndaluar një bot të kenë qasje në një faqe të veçantë, shtoni linjat e mëposhtme:
User-agent: *
Disallow: */my-duplicate-page.html
Vini re se kjo nuk është një budalla-provë metodë. Nëse faqja e juaj nuk lejohet ka lidhje me atë nga një faqe tjetër, ajo do të vazhdojë të gjurmuar nga bots.
Unë mund të mbaj do, por unë jam i sigurt që ju jeni i mërzitur gjitha deri tani. Ndjehen të lirë për koment më poshtë ose të kontaktoni me mua direkt, nëse ju dëshironi të dini më shumë.
Roboting lumtur.



















