هذا هو آخر واحد طويل ولكن المهم. أنصحك الاستيلاء على فنجان من الشوكولاته الساخنة قبل بدء الخاص 
إذا لم تكن قد سمعت من ملف robots.txt ، بل هو مجرد ملف صغير يقع في موقع الويب الخاص بك الدليل الجذر الذي يرشد محركات البحث على ما يمكن وما لا يمكن القيام به. وإن لم يكن بشكل صارم ، فإن محرك البحث البوتات احترام القواعد المحددة عموما إلى الأمام في ملف robots.txt. مع ملف robots.txt تكوينه بشكل صحيح يمكنك ، على سبيل المثال ، محاولة لدرء المتطفلين ، اقول لا لجوجل مؤشر صورك أو إرشاد البوتات لتخطي الصفحات التي قد تحتوي على محتوى مكرر.
البوتات هي قطعة من البرمجيات المستخدمة من قبل شركات محركات البحث ، والاطر والمحتوى المراكم للزحف على الانترنت للعثور على محتوى جديد أو تعديل. وظيفة بوت هو تتبع الروابط على موقع على الانترنت الزحف من صفحة الى صفحة وموقع إلى موقع. انه نوع من مثل ست درجات من كيفن بيكون شيء. تتبع الروابط بما فيه الكفاية ويجب أن تجد في نهاية المطاف كل المحتوى على الشبكة. هذا هو السبب في خلفية هي في غاية الأهمية. لمزيد من خلفية لديك ، فمن الأسهل لمحركات البحث للعثور على المحتوى الخاص بك. هناك حرفيا الملايين من حالات الجر بوت الشباك في أي وقت واحد. التسمية الرسمية لبوت هو مستخدم وكيل التي يوجد منها الآلاف. يتيح اتخاذ غوغل على سبيل المثال. جوجل والعديد من العوامل المختلفة المستخدمة من قبل المستخدم لفهرسة موقعك ، واستخراج الصور والفيديو ، والعثور على قنوات الأخبار ، والعثور على الهاتف المحمول المحتوى ، والتحقق من موقعك للحصول على جودة Adsense وهلم جرا. هذا الموقع من التفاصيل على قائمة كاملة من وكلاء المستخدم المعروفة.
وقد حول ملف robots.txt لالأعمار. وقدم فعلا من قبل التافيستا في عام 1994 ، ولكن يبقى الآن كغذاء أساسي للعناكب الشبكة. للحصول على وصف كامل للملف والتدوين القياسي الخاص به ، قم بزيارة هنا . باختصار ، يمكن لملف robots.txt تقييد البوتات محددة من الزحف إلى موقعك بأكمله أو جزء منه. للقيام بذلك ، وجميع البوتات وتوقيع خاص. على سبيل المثال ، دعا بوت جوجل مؤشر غوغلبوت ، ويسمى بنج بوت في MSNbot ، ويسمى بوت ياهو ياهو إلتهم.
قد إدخال في الملف Robots.txt تبدو هذه :
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
نحن هنا نقول وكيل المستخدم إلتهم أنه يمكن الوصول إلى جميع الصفحات الموجودة في أي دليل تبدأ ب "العامة" ، وليس لديهم الوصول إلى صفحات مع "_print" في URI.
أدناه هو ملف robots.txt كامل لأحد المواقع وورد بلدي التجريبي (سأكون آخر مقال شرح ما أعنيه موقع تجريبي ليوم آخر). القراء قد المخضرمين علما بأنني بعدم قبول جميع وكلاء المستخدم من الدلائل المحددة ، والسماح فقط بعض وكلاء مستخدم معين من الوصول إلى المناطق المتبقية من موقعي. عملية تحديث الأخيرة إلى مستوى يسمح لي أيضا إلى قائمة الموقع خريطة موقعي لمساعدة محركات البحث في العثور على كل صفحاتي.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
سوف تنكر البوتات من الوصول إلى المحتوى غير معدة للاستهلاك ضمان أن موقعك ستبقى الكلمة الأمثل على كل الصفحات ، مما يساعد على تعزيز موقعك ضمن تصنيفات محرك البحث. ويقول على سبيل المثال كنت قد عملت بجد لتحسين كل الصفحات عن "زيادة الوزن" الكلمة الرئيسية ومختلف ذيول طويلة. قد تتم تصفيته عملك باستمرار في نظر محرك البحث إذا كان قادرا على الزحف صفحة تسجيل الدخول الخاصة بك ، صفحة الخصوصية ، وشكل من أشكال الاتصال.
بعض الخبراء يقولون أيضا أن كبار المسئولين الاقتصاديين جوجل يعاقب الصغار في المواقع القديمة لصالح المزيد من المواقع المحددة. جوجل يستخدم على ما يبدو في أرشيف الإنترنت (موجود هنا ) لتحديد عمر الموقع. إذا كان لا يمكن العثور على موقع في الأرشيف ، فإنه يفترض على ما يبدو كان الموقع عبارة عن سن معينة. لهذا السبب ، كثير من الناس توقف بنشاط أرشيف الإنترنت المستخدم الوكيل من فهرسة مواقعهم. ويمكن القيام بذلك عن طريق بما في ذلك الأسطر التالية :
User-agent: ia_archiver-web.archive.org
Disallow: /
قد تريد أيضا وقف البوتات صورة من الوصول إلى الصور الخاصة بك إذا كان لديهم اقترضت الأسهم غير الصور من مواقع أخرى. يمكن القيام بذلك كما يلي :
User-agent: Googlebot-Image
Allow: /
أخيرا ، يمكن استخدام ملف robots.txt لاستبعاد صفحات معينة من السير التي يمكن استخدامها لعرض المحتويات التي قد تكون متاحة على مواقع أخرى أو صفحات. وكثيرا ما يقال ان غوغل سوف تعاقب تقييم موقعك لعرض محتوى مكرر. أنا شخصيا لا نرى في ذلك مشكلة كبيرة ، ونعتقد أن محتوى مكرر يمكن أن يساعد فعلا تصنيف موقعك في بعض الحالات (المزيد حول هذا الموضوع في يوم آخر). على أي حال ، لوقف بوت من الوصول إلى صفحة معينة ، أضف الأسطر التالية :
User-agent: *
Disallow: */my-duplicate-page.html
علما أن هذه ليست طريقة مقاومة للخداع. إذا صفحتك مسموح لها صلات إليها من موقع آخر ، وسوف يظل من الممكن الزحف عن طريق السير.
أستطع الاستمرار ، ولكن أنا متأكد من كل ما تشعر بالملل حتى الآن. لا تتردد في التعليق أدناه أو الاتصال بي مباشرة اذا كنت ترغب في معرفة المزيد.
roboting سعيدة.