robots.txt的搜索引擎优化技术
这是一篇很长,但重要的一条。 我建议你抢一杯热巧克力,你的启动前 ![]()
如果你还没有听说过的 robots.txt文件,它只是一个小文件,位于您的网站的根目录,指示他们可以什么和不能做什么搜索引擎。 虽然没有严格执行,一般会尊重搜索引擎机器人在robots.txt文件中提出的规则。 例如,有了一个正确配置的robots.txt文件,您可以尝试抵挡垃圾邮件机器人,告诉Google不要索引你的图像或指示机器人跳过页面可能包含重复的内容。
机器人是由搜索引擎公司,垃圾邮件和内容蓄能的软件,用来抓取互联网寻找新的或修改的内容。 机器人的工作是按照爬行的网站从页面到页面和站点到站点上的链接。 这是一个六度凯文培根的事情一样样的。 按照足够的链接,那么您最终应该找到所有的净含量。 这就是为什么如此重要的反向。 你有越多的反向链接,就越容易找到你的内容对于搜索引擎。 有以百万计的BOT拖网网在任何一个时间实例。 BOT官方术语,其中有成千上万的用户代理。 让我们,例如谷歌。 谷歌有许多不同的用户代理用来索引你的网站,图像和视频提取,发现新闻联播,发现手机的内容,检查您的网站,广告质量等。 该网站详细介绍了已知用户代理的完整列表。
robots.txt文件中已经出现了年龄。 它实际上是在1994年由AltaVista的 ,但现在仍然是一个网络蜘蛛的主食。 对于一个完整的文件和标准的符号说明,请访问这里。 总之,robots.txt文件可以限制特定的机器人爬行你的整个网站或部分。 要做到这一点,所有的机器人有一个特殊的签名。 例如,谷歌的索引BOT被称为Googlebot,阿炳的BOT被称为MSNBot会,和雅虎的BOT被称为雅虎思乐普。
在robots.txt文件中的条目可能看起来像这样:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
在这里,我们告诉思乐普用户的代理,它可以访问在任何与“公”的起始目录中的所有页面,并没有获得“_print”URI中的网页。
下面是一个完整的robots.txt文件,我的实验的WordPress网站(我将发表一篇文章,解释我试验场意味着另一天)之一。 细心的读者可能会注意到,我不允许从特定目录的所有用户代理,并且只允许一些特定的用户代理访问我的网站的其余地区。 最近更新的标准也让我列出我的站点地图的位置,以帮助搜索引擎找到我所有的网页。
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
不准从机器人的访问不打算消费的内容,将确保您的网站将继续在所有网页上优化的关键字,从而有助于促进您的网站在搜索引擎中的排名。 例如,你一直在优化关键字“体重增加”和各种长长的尾巴的所有网页硬说。 你的工作可能会被过滤搜索引擎的眼睛,如果它能够抓取您的登录页面,隐私页的联系方式。
一些SEO专家也认为,谷歌惩罚年轻的网站有利于老年人建立网站。 谷歌显然使用互联网档案( 在这里找到)来判断一个网站的年龄。 如果它不能找到归档的站点,它显然假定该网站是某一年龄。 出于这个原因,许多人积极阻止他们的网站索引互联网档案馆的用户代理。 这可以包括以下几行:
User-agent: ia_archiver-web.archive.org
Disallow: /
你可能想也停止访问您的照片,如果他们有借用其他网站的非图像的形象机器人。 这是可以做到像这样:
User-agent: Googlebot-Image
Allow: /
最后,robots.txt的可用于排除机器人,可用于显示其他网站或网页上提供的内容可能的特定页面。 它往往是说,谷歌将您的评级,显示重复内容的惩罚。 我本人没有看到作为一个大问题,这一点,相信重复的内容,实际上可以帮助您的网站在某些情况下,评级(更多的信息另一天)。 无论如何,阻止访问特定页面一个机器人,添加以下几行:
User-agent: *
Disallow: */my-duplicate-page.html
请注意,这不是一个很简单的方法。 如果您不允许从另一个网站页面有链接到它,它仍然会被抓取的机器人。
我可以继续下去,但我敢肯定,你现在很无聊。 随意低于或评论,如果你想了解更多,请直接与我联系。
跑马roboting。



















