กระทู้นี้เป็นหนึ่งยาว แต่ที่สำคัญ ผมขอแนะนำให้คุณคว้าถ้วยช็อคโกแลตร้อนก่อนที่จะเริ่มต้นของคุณ 
ถ้าคุณยังไม่เคยได้ยินจากไฟล์ robots.txt มันเป็นเพียงไฟล์ขนาดเล็กที่อยู่ในไดเรกทอรีรากของเว็บไซต์ที่สั่งให้เครื่องมือค้นหาในสิ่งที่พวกเขาสามารถและไม่สามารถทำ แม้ว่าจะไม่ได้บังคับใช้อย่างเคร่งครัด, บอทเครื่องมือค้นหาทั่วไปจะเคารพกฎที่ตั้งไว้ข้างหน้าในไฟล์ robots.txt ด้วยไฟล์ robots.txt กำหนดค่าอย่างที่คุณสามารถยกตัวอย่างเช่นความพยายามที่จะปัดเป่าปิดสแปมบอทบอก google ไม่ให้ดัชนีภาพของคุณหรือสั่งให้บอทที่จะข้ามหน้าเว็บที่อาจมีเนื้อหาที่ซ้ำกัน
Bots เป็นชิ้นส่วนของซอฟต์แวร์ที่ใช้โดยสแปมเมอร์ บริษัท ค้นหาเครื่องยนต์และหม้อสะสมเนื้อหาในการรวบรวมข้อมูลทางอินเทอร์เน็ตเพื่อค้นหาเนื้อหาใหม่หรือการปรับเปลี่ยน งานของ ธปท. เป็นไปตามการเชื่อมโยงบนเว็บไซต์รวบรวมข้อมูลจากหน้าไปยังหน้าและไซต์ มันชนิดเช่น Six Degrees ของสิ่งที่เควินเบคอน ตามการเชื่อมโยงเพียงพอและในที่สุดคุณควรหาเนื้อหาทั้งหมดในสุทธิ นี่คือเหตุผลที่ลิงก์ย้อนกลับเป็นสิ่งที่สำคัญดังนั้น ลิงก์ย้อนกลับ more คุณได้ง่ายขึ้นก็คือสำหรับเครื่องมือค้นหาเพื่อค้นหาเนื้อหาของคุณ มีอักษรล้านจากกรณี ธปท. สืบค้นสุทธิที่ใดเวลาหนึ่ง ระยะทางการสำหรับบอเป็น user-agent ซึ่งมีหลายพัน จะช่วยให้ผู้ใช้ Google ตัวอย่างเช่น Google มีหลายตัวแทนผู้ใช้ที่แตกต่างกันนำมาใช้เพื่อสร้างดัชนีเว็บไซต์ของคุณดึงภาพและวิดีโอพบฟีดข่าว, ค้นหาเนื้อหาโทรศัพท์มือถือให้ตรวจสอบเว็บไซต์ของคุณเพื่อที่มีคุณภาพ Adsense และอื่น ๆ นี้ เว็บไซต์ รายละเอียดของรายการที่สมบูรณ์ของตัวแทนที่รู้จักของผู้ใช้
ไฟล์ robots.txt ได้รับรอบสำหรับทุกวัย มันถูกนำจริงโดย AltaVista ในปี 1994 แต่ตอนนี้ยังคงเป็นอาหารหลักสำหรับแมงมุมเว็บ สำหรับคำอธิบายที่สมบูรณ์ของไฟล์และสัญกรณ์มาตรฐานของการเยี่ยมชม ที่นี่ . ในระยะสั้นไฟล์ robots.txt สามารถ จำกัด บอเฉพาะจากการรวบรวมข้อมูลทั้งเว็บไซต์ของคุณหรือดังกล่าวส่วนหนึ่ง การทำเช่นนี้บอททุกคนมีลายเซ็นพิเศษ ตัวอย่างเช่นบอตดัชนีของ Google ที่เรียกว่า Googlebot, Bing ของ ธปท. เรียกว่า MSNBot และบอทของ Yahoo เรียกว่า Yahoo! Slurp
รายการในไฟล์ Robots.txt อาจมีลักษณะเช่นนี้
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
ที่นี่เราจะบอกตัวแทนผู้ใช้ Slurp ว่ามันสามารถเข้าถึงหน้าเว็บทั้งหมดที่อยู่ในไดเรกทอรีที่ขึ้นต้นด้วย "สาธารณะ" ใด ๆ และมีการเข้าถึงหน้าเว็บที่มี "_print" ไม่มีใน URI
ด้านล่างเป็นไฟล์ robots.txt ที่สมบูรณ์สำหรับการอย่างใดอย่างหนึ่งของเว็บไซต์ของฉันทดลองเวิร์ดเพรส (ฉันจะโพสต์บทความอธิบายสิ่งที่ฉันหมายถึงเว็บไซต์ทดลองวันอื่น) คือ ผู้อ่านอาจจะฉลาดทราบว่าฉันไม่อนุญาตให้ตัวแทนผู้ใช้ทั้งหมดจากไดเรกทอรีที่เฉพาะเจาะจงและมีเพียงการอนุญาตให้บาง บริษัท ตัวแทนผู้ใช้เฉพาะการเข้าถึงพื้นที่ที่เหลือของเว็บไซต์ของฉัน ปรับปรุงล่าสุดเมื่อมาตรฐานนี้ยังช่วยให้ฉันเข้าไปในรายการที่ตั้งของแผนที่เว็บไซต์ของฉันที่จะช่วยให้เครื่องมือค้นหาพบทั้งหมดของหน้าเว็บของฉัน
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
ไม่อนุญาตให้บอตจากการเข้าถึงเนื้อหาที่ไม่ได้มีวัตถุประสงค์เพื่อการบริโภคจะให้แน่ใจว่าเว็บไซต์ของคุณจะยังคงเพิ่มประสิทธิภาพคำหลักบนหน้าเว็บทั้งหมดจึงช่วยส่งเสริมเว็บไซต์ของคุณภายในจัดอันดับของเครื่องมือค้นหา พูดเช่นคุณได้ทำงานอย่างหนักที่การเพิ่มประสิทธิภาพของหน้าเว็บทั้งหมดสำหรับคำหลัก "น้ำหนัก" และหางยาวต่างๆ การทำงานของคุณอาจถูกกรองลงในสายตาของเครื่องมือค้นหาถ้ามันเป็นความสามารถในการรวบรวมข้อมูลหน้า login, หน้าส่วนตัวของคุณและฟอร์มที่ติดต่อ
บางผู้เชี่ยวชาญ SEO ยังยืนยันว่า Google ลงโทษเว็บไซต์ของหนุ่มสาวในความโปรดปรานของเว็บไซต์ที่จัดตั้งขึ้นที่มีอายุมากกว่า เห็นได้ชัดว่า Google ใช้อินเตอร์เน็ต Archive (พบ ที่นี่ ) เพื่อตรวจสอบอายุของเว็บไซต์ หากไม่สามารถค้นหาเว็บไซต์ในคลังก็เห็นได้ชัดจะถือว่าเว็บไซต์ที่มีบางกลุ่มอายุ ด้วยเหตุนี้คนจำนวนมากหยุดการแข็งขัน Archive อินเตอร์เน็ต user-agent จากการจัดทำดัชนีเว็บไซต์ของพวกเขา ซึ่งสามารถทำได้โดยการรวมบรรทัดต่อไปนี้:
User-agent: ia_archiver-web.archive.org
Disallow: /
คุณอาจต้องการยังหยุดบอทภาพจากการเข้าถึงภาพของคุณหากพวกเขาได้ยืมภาพที่ไม่ได้สต็อกจากเว็บไซต์อื่น ๆ ซึ่งสามารถทำได้เช่นดังนั้น
User-agent: Googlebot-Image
Allow: /
ในที่สุด robots.txt สามารถนำมาใช้เพื่อยกเว้นบอทจากหน้าเว็บที่ระบุว่าอาจถูกใช้เพื่อแสดงเนื้อหาที่อาจจะมีให้บริการบนเว็บไซต์อื่น ๆ หรือหน้าเว็บ มันเป็นที่ถกเถียงกันอยู่บ่อยครั้งว่า Google จะลงโทษการให้คะแนนของคุณสำหรับการแสดงผลเนื้อหาที่ซ้ำกัน ผมเองไม่เห็นนี้เป็นปัญหาใหญ่และเชื่อว่าเนื้อหาที่ซ้ำกันจริงจะช่วยให้การประเมินของเว็บคุณในบางกรณี (เพิ่มเติมเกี่ยวกับเรื่องนี้วันอื่น) อย่างไรก็ตามที่จะหยุดบอทจากการเข้าถึงที่ระบุให้เพิ่มบรรทัดต่อไปนี้:
User-agent: *
Disallow: */my-duplicate-page.html
โปรดทราบว่านี้ไม่ได้เป็นวิธีการที่โง่หลักฐาน ถ้าหน้าไม่ได้รับอนุญาตของคุณมีการเชื่อมโยงไปจากเว็บไซต์อื่นก็จะยังคงได้รับการรวบรวมข้อมูลโดยบอต
ฉันจะให้ไป แต่ฉันแน่ใจว่าคุณกำลังเบื่อโดยในขณะนี้ โปรดแสดงความคิดเห็นด้านล่างหรือติดต่อเราโดยตรงหากท่านต้องการทราบข้อมูลเพิ่มเติม
roboting แฮปปี้