Bu yazı, bir uzun ama önemli biridir. Ben başlamadan önce bir fincan sıcak çikolata kapmak öneririz 
Robots.txt dosyası duymadım varsa, sadece onlar ve yapamayacağı ne arama motorları bildirir web sitenizin kök dizinine bulunan küçük bir dosyadır. Kesinlikle zorunlu olmamakla birlikte, arama motoru botları genellikle ileri robots.txt dosyası belirtilen kurallara saygı göstereceğiz. Düzgün yapılandırılmış bir robots.txt dosyası ile, örneğin, spam botlara savuşturabilse için girişimi, google görüntüleri indeksleyebilecektir söyle ya da botlar yinelenen içerik içerebilir sayfaları atlamak için talimat verebilirsiniz.
Arama motorları internet emeklemeye yeni veya değiştirilmiş içeriği bulmak için arama motoru şirketleri, spam ve içerik akümülatörler tarafından kullanılan yazılım parçalarıdır. Bir bot sayfa sitesine sayfası ve site sürünen bir web sitesinde iş bağlantıları takip etmektir. Kevin Bacon şey bir Six Degrees gibi çeşit bulunuyor. Yeterli bağlantıları izleyin ve sonunda net üzerinden tüm içerik bulmak. Geri çok önemli neden budur. Var daha geri, daha kolay içeriği bulmak için arama motorları için. Ayrıca,,,, herhangi bir birini zamanlı at net ortasu trolü bot örneklerini of milyonlarca, kelimenin tam anlamıyla Orada> şunlardır. Bir bot için resmi terim binlercesi var olan bir user-agent. Sağlar örneğin Gooogle'da. Google sitenizi dizine kullanılan pek çok farklı kullanıcı ajanları vardır, böylece, fotoğraf ve videoların ayıklamak haber kaynakları bulmak, cep telefonu içeriği bulmak için sitenizi Adsense kalite kontrol ve. Bu site tam bir listesini bilinen kullanıcı-ajanlar.
Robots.txt dosyası yaş civarında olmuştur. Aslında başlandı AltaVista 1994 yılında, ama şimdi web örümcekler için bir temel besini olmaya devam etmektedir. Dosya ve standart gösterim tam bir açıklaması için, ziyaret edin burada . Kısacası, bir robots.txt dosyası sitenizin tamamını veya bir kısmı taramasını belirli botları kısıtlayabilirsiniz. Bunu yapmak için, tüm botlara özel bir imza var. Örneğin, Google indeksinde bot Googlebot denir, Bing bot MSNbot denir, ve Yahoo bot Yahoo! Slurp denir.
Robots.txt dosyasında bir girdi bu gibi görünebilir:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Burada "kamu" ile başlayan herhangi bir dizin içinde bulunan tüm sayfalarına erişebilirsiniz Slurp kullanıcı arayüzünün söylüyorum ve URI "_print" sayfalara erişimi yok.
Aşağıda benim deneysel WordPress siteleri (ben başka bir gün deneysel sitesi tarafından ne anlama geldiğini açıklayan bir makale göndeririz) biri için tam bir robots.txt dosyası. Astute okuyucularına özel dizinler tüm kullanıcı arayüzleri izin vermez ve sadece bazı özel kullanıcı arayüzleri benim site kalan alanlarda erişim sağlayan ediyorum unutmayın. Standardına yeni bir güncelleştirme ayrıca arama motorları tüm sayfaları bulmak yardımcı olmak için benim site haritası konumunu listelemek için bana izin verir.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Tüketim amaçlı içeriğe erişmesini botlara izin vermemek, böylece arama motoru sıralamalarını içinde sitenizi tanıtmak yardımcı sitenizdeki bütün sayfalarda optimize anahtar kelime kalacağını sağlayacaktır. Örneğin, anahtar kelime "kilo alımı" ve çeşitli uzun kuyrukları tüm sayfalar için optimize zor çalıştı söyleyin. Giriş sayfası, gizlilik sayfası ve iletişim formu tarayamayabiliriz ise iş arama motoru gözünde aşağı süzülür olabilir.
Bazı SEO uzmanları da Google büyük daha kurulmuş siteler lehine genç web siteleri cezalandırır olduğunu savunuyorlar. Google görünüşte Internet Archive (bulundu kullanan bir sitenin yaşını belirlemek için). Arşiv sitesi bulamazsanız, görünüşe göre sitenin belirli bir yaş olduğunu varsayar. Bu nedenle, birçok kişi kendi sitenizi dizine aktif Internet Archive user-agent durdurun. Bu aşağıdaki satırları da dahil olmak üzere yapılabilir:
User-agent: ia_archiver-web.archive.org
Disallow: /
Ayrıca diğer sitelerden non-hazır görüntüler ödünç varsa resimlerinizi erişmesini görüntü botlar durdurmak isteyebilirsiniz. Bu şu şekilde yapılabilir:
User-agent: Googlebot-Image
Allow: /
Son olarak, robots.txt diğer sitelere veya sayfalara bulunabilir içeriği görüntülemek için kullanılıyor olabilir belirli sayfaların botlar dışlamak için kullanılabilir. Genellikle, Google, yinelenen içerik görüntülemek için değerlendirme cezalandırmak olacağı ileri sürülmektedir. Ben şahsen büyük bir sorun olarak görüyorum ve yinelenen içerik aslında bazı durumlarda (bu başka bir gün hakkında daha fazla) sitenizin oylaması yardımcı olabilir inanıyorum yok. Neyse, belirli bir sayfaya erişen bir bot durdurmak için, aşağıdaki satırları ekleyin:
User-agent: *
Disallow: */my-duplicate-page.html
Bu bir aptal-proof yöntemi olmadığını unutmayın. Izin verilmeyen bir sayfa başka bir siteden bu bağlantılar varsa, hala botlar tarafından taranamadı.
Ben devam olabilir, ama artık sıkıldı eminim. Aşağıda yorum veya daha fazla bilgi edinmek istiyorsanız doğrudan benimle temas kurmaktan çekinmeyin.
Mutlu roboting.