Robots.txt SEO techniky
Tento příspěvek je dlouhá, ale důležitá. Doporučuji vzít si šálek horké čokolády, než si začít ![]()
Pokud jste ještě neslyšeli o souboru robots.txt, to je prostě malý soubor se nachází v kořenovém adresáři webové stránky, které vyhledávače pokyny o tom, co mohou a nemohou dělat. I když není důsledně dodržována, bude roboty vyhledávačů obecně respektovat pravidla stanovená dopředu v souboru robots.txt. Se správně nastaven soubor robots.txt, můžete například pokus odrazit proti spamování, řekněte Google, aby index obrázky nebo instruovat roboty přeskočit stránky, které mohou obsahovat duplicitní obsah.
Bots je software používaný společností vyhledávače, spammeři a obsah akumulátorů procházení internetu najít nový nebo upravený obsah. Bot je úkolem je další odkazy na webové stránky leze ze stránky na stránku a místa na místo. Je to něco, jako je Six Degrees of věci Kevin Bacon. Postupujte dost odkazů a vy byste měli najít všechny nakonec obsah na internetu. To je důvod, proč jsou tak důležité zpětné odkazy. Čím více zpětných odkazů máte, tím snazší je pro vyhledávače najít obsah. Existují doslova miliony bot případech vlečnými sítěmi sítě v nějaké jedné době. Oficiální termín pro bot je user-agent kterých jsou tisíce. Vezměme například Google. Google má mnoho různých user-agenty používán index vaše stránky, extrahovat obrázky a videa, najít novinek, najít obsah pro mobilní telefony, zkontrolujte, zda váš web za kvalitu Adsense a podobně. Tato stránka podrobnosti kompletní seznam známých uživatelských agentů.
Soubor robots.txt byl po věky. To byl vlastně představen AltaVista v roce 1994, ale nyní zůstává hlavní potrava pro pavouky web. Pro úplný popis souboru a jeho standardní zápis, navštivte zde . Stručně řečeno, soubor robots.txt, omezují určité roboty k prohledávání celého webu nebo jeho části. K tomu, všechny boty mají speciální podpis. Například, Google bot tzv. index Googlebot, je Bing je bot volal MSNbot a Yahoo bot se jmenuje Yahoo! Slurp.
Záznam v souboru robots.txt může vypadat například takto:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Tady jsme musí uživateli sdělit, Slurp agenta, který má přístup všech stránek umístěn v adresáři začínající "public", a nemají přístup na stránky s "_print" v URI.
Níže je uveden úplný soubor robots.txt pro jednu z mých pokusných stránkách WordPress (já po článku vysvětluje, co mám na mysli experimentální stránky na jiný den). Bystrý čtenáři mohou uvědomit, že jsem znemožňující všechny uživatelské agenty ze specifických adresářů a pouze umožňují některé specifické uživatelské agenty přístup do zbývajících oblastí mé stránky. Poslední aktualizace standard také umožňuje mě na seznam umístění mých mapa stránek pomoci vyhledávačům najít všechny mé stránky.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Znemožňující roboty v přístupu k obsahu, které nejsou určeny pro lidskou spotřebu se zajistí, že vaše stránky budou i nadále klíčové slovo optimalizován na všech stranách, a tak pomáhá propagovat své stránky v rámci hodnocení vyhledávačů. Řekněme například, jste tvrdě pracovali na optimalizaci všech stránek na klíčové slovo "váze" a různých dlouhými ocasy. Vaše práce může být filtrován v očích vyhledávače, pokud to bylo možné procházet vaše přihlašovací stránku, soukromí stránku a kontaktní formulář.
Někteří SEO experti také tvrdí, že Google trestá mladé webové stránky ve prospěch starší více stanovených místech. Google zřejmě používá Internet Archive (naleznete zde ), k určení stáří stránky. Pokud se nenajde místo v archivu, to zřejmě předpokládá, že web je do určitého věku. Z tohoto důvodu, mnoho lidí aktivně zastavit Internet Archive user-agent z indexování svých stránek. To lze provést tím, následující řádky:
User-agent: ia_archiver-web.archive.org
Disallow: /
Možná budete chtít také zastavit obraz roboty v přístupu ke své fotografie, pokud si půjčili bez obrázky z jiných webů. To lze provést například takto:
User-agent: Googlebot-Image
Allow: /
Konečně, robots.txt být použita pro vyloučení robotů z konkrétní stránky, které mohou být použity pro zobrazení obsahu, který může být k dispozici na další webové stránky. To je často argumentoval, že Google se bude trestat své hodnocení pro zobrazení duplicitní obsah. Já osobně nevidím to jako velký problém a věří, že duplicitní obsah může skutečně pomoci vašich stránek hodnocení v některých případech (více o tomto další den). Mimochodem, k zastavení bot v přístupu na konkrétní stránku, přidejte následující řádky:
User-agent: *
Disallow: */my-duplicate-page.html
Všimněte si, že to není blázen osvědčenou metodu. Pokud váš zakázané stránky s odkazy na to z jiné stránky, bude to ještě navštívena roboty.
Mohl bych pokračovat, ale jsem si jist, že všichni nudí nyní. Neváhejte a komentář níže, nebo kontaktujte přímo mě, pokud chcete vědět víc.
Šťastný roboting.



















