هذا هو آخر واحد طويل ولكن المهم. أنصحك الاستيلاء على كوب من الشوكولا الساخنة قبل بدء الخاص 
إذا لم تكن قد سمعت من ملف robots.txt، بل هو مجرد ملف صغير يقع في موقع الويب الخاص بك الدليل الجذر الذي يرشد محركات البحث على ما يمكن وما لا يمكن القيام به. وإن لم يكن بشكل صارم، والسير محرك البحث احترام القواعد المحددة عموما إلى الأمام في ملف robots.txt. مع ملف robots.txt تكوينه بشكل صحيح يمكنك، على سبيل المثال، محاولة لدرء المتطفلين، اقول جوجل لا مؤشر الصور الخاصة بك أو إرشاد السير لتخطي الصفحات التي قد تحتوي على محتوى مكرر.
البوتات هي قطعة من البرمجيات المستخدمة من قبل الاطر محرك البحث، والشركات ومدخرات المحتوى إلى الزحف على الانترنت للعثور على محتوى جديد أو تعديل. وظيفة بوت هو أن تتبع الروابط على موقع على الانترنت الزحف من صفحة الى صفحة وموقع إلى موقع. انها نوع من مثل ست درجات من شيء كيفن بيكون. تتبع الروابط بما فيه الكفاية ويجب عليك ان تجد في نهاية المطاف كل المحتوى على الشبكة. هذا هو السبب في الخلفية هي في غاية الأهمية. لمزيد من خلفية لديك، فمن الأسهل لمحركات البحث للعثور على المحتوى الخاص بك. هناك حرفيا الملايين من حالات الجر بوت الشباك في أي وقت واحد. المصطلح الرسمي لبوت هو عامل المستخدم التي يوجد منها الآلاف. يتيح أخذ صور على سبيل المثال. جوجل لديها العديد من مختلف وكلاء المستخدمة من قبل المستخدم إلى موقع الويب الخاص بك مؤشر، واستخراج الصور ومقاطع الفيديو، والعثور على روابط إخبارية، والعثور على محتوى الهاتف المحمول، والتحقق من موقع الويب الخاص بك للحصول على جودة ادسينس وهلم جرا. هذا موقع من التفاصيل على قائمة كاملة من وكلاء المستخدم معروفة.
وكان ملف robots.txt حول لالأعمار. وقدم فعلا من قبل التافيستا في عام 1994، لكنها لا تزال الآن الغذاء الرئيسي لشبكة العناكب. للحصول على وصف كامل للملف وتدوين لها معيار، زيارة هنا . باختصار، يمكن لملف robots.txt تقييد البوتات محددة من الزحف إلى موقعك كله أو جزء منه. للقيام بذلك، كل البوتات لها توقيع خاص. على سبيل المثال، ما يسمى بوت جوجل مؤشر غوغلبوت، ويسمى بوت بنج في MSNbot، ويسمى بوت ياهو إلتهم ياهو.
قد إدخال في الملف Robots.txt تبدو مثل هذا:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
هنا نحن نقول للعامل المستخدم إلتهم أنه يمكن الوصول إلى كل الصفحات الموجودة في أي دليل تبدأ ب "العامة"، وليس لديهم الوصول إلى صفحات مع "_print" في URI.
وفيما يلي ملف robots.txt كامل لأحد المواقع الخاصة بي وورد التجريبية (أنا ما بعد مقال شرح ما أعنيه موقع تجريبي ليوم آخر). القراء قد فطن لاحظ أنني تنكر جميع وكلاء المستخدم من أدلة محددة، والسماح فقط بعض وكلاء المستخدم محددة من الوصول إلى المناطق المتبقية من موقعي. عملية تحديث الأخيرة إلى مستوى يسمح لي أيضا إلى قائمة موقع خريطة موقع بلدي لمساعدة محركات البحث في العثور على كل صفحاتي.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
سوف تنكر السير من الوصول إلى المحتوى غير معدة للاستهلاك ضمان موقعك ستبقى الكلمة الأمثل في كل الصفحات، مما يساعد على تعزيز موقعك ضمن تصنيفات محرك البحث. ويقول على سبيل المثال كنت قد عملت بجد على تحسين جميع صفحات عن "زيادة الوزن" الكلمة الرئيسية ومختلف ذيول طويلة. ويمكن تصفية العمل الخاص بك إلى أسفل في نظر محرك البحث إذا كان قادرا على الزحف صفحة تسجيل الدخول الخاصة بك، صفحة الخصوصية، وشكل من أشكال الاتصال.
بعض الخبراء كبار المسئولين الاقتصاديين يقولون أيضا ان غوغل تعاقب المواقع الشباب لصالح أقدم المواقع الأكثر رسوخا. تستخدم Google يبدو أن أرشيف الإنترنت (وجدت هنا ) لتحديد عمر الموقع. إذا كان لا يمكن العثور على موقع في الأرشيف، فإنه يفترض على ما يبدو كان الموقع عبارة عن سن معينة. لهذا السبب، كثير من الناس توقف بنشاط أرشيف الإنترنت عامل المستخدم من فهرسة مواقعهم. ويمكن القيام بذلك عن طريق بما في ذلك الأسطر التالية:
User-agent: ia_archiver-web.archive.org
Disallow: /
قد ترغب في التوقف عن السير أيضا صورة من الوصول إلى الصور الخاصة بك إذا كان قد اقترض من غير رصيد الصور من مواقع أخرى. يمكن القيام بذلك كما يلي:
User-agent: Googlebot-Image
Allow: /
أخيرا، يمكن استخدام ملف robots.txt لاستبعاد السير من صفحات معينة يمكن أن تستخدم لعرض المحتوى التي قد تكون متاحة على مواقع أخرى أو صفحات. وكثيرا ما يقال ان غوغل سوف تعاقب تقييم موقعك لعرض محتوى مكرر. وأنا شخصيا لا نرى في ذلك مشكلة كبيرة، ونعتقد أن تكرار مضمون يمكن أن تساعد في الواقع تصنيف موقعك في بعض الحالات (المزيد عن هذا في يوم آخر). على أي حال، لوقف بوت من الوصول إلى صفحة معينة، أضف الأسطر التالية:
User-agent: *
Disallow: */my-duplicate-page.html
لاحظ أن هذه ليست وسيلة خداع واقية. إذا صفحة غير مسموح لها صلات من موقع آخر، وسوف يظل من الممكن الزحف من قبل السير.
أنا يمكن أن تستمر، ولكن أنا متأكد من أن كل ما تشعر بالملل من قبل الآن. لا تتردد في التعليق أدناه أو الاتصال بي مباشرة إذا كنت ترغب في معرفة المزيد.
سعيد roboting.