Този пост е дълъг, но важни. Препоръчвам ви да вземете чаша горещ шоколад преди началото 
Ако не сте чували за файла robots.txt, това е просто един малък файл, намиращ се в директорията уебсайт корен, който указва на търсачките за това какво могат и какво не може да направи. Въпреки че не се прилага стриктно, ботове търсачката ще спазват правилата, определени във файла robots.txt. , С конфигуриран правилно файла robots.txt можете да, например, се опитват да отблъснат спам ботове, кажете не на Google да индексира вашите изображения или да инструктират ботове, за да пропуснете страници, които могат да съдържат дублиране на съдържанието.
Bots са парчета от софтуера, използван от компании за търсачката, спамърите и съдържанието акумулатори за обхождане на интернет, за да намерят нови или модифицирани съдържание. А бота е да се следват връзките на уеб сайт пълзи от страница на страница и сайт на сайт. Това е нещо като Six Degrees на Кевин Бейкън нещо. Следвайте достатъчно връзки и в крайна сметка трябва да намерите всички съдържание в мрежата. Това е, защо препратки са толкова важни. Колкото повече обратни линкове имате, толкова по-лесно е за търсачките, за да намерите вашето съдържание. Има буквално милиони на бот случаи тралене мрежата във всеки един момент. Официалният срок за бот е User-Agent, на които има хиляди . Нека Google например. Google има много различни потребителски средства, използвани да индексират сайта, извличане на изображения и видеоклипове, да намерите емисии новини, мобилно съдържание на телефона, проверете сайт за качество Adsense и така нататък. Този сайт пълен списък на познат потребител агенти.
Файлът robots.txt е около продължение на векове. Това всъщност е въведен от AltaVista през 1994 г., но сега остава основна храна за уеб паяци. За пълно описание на файла и стандартната нотация, посещение тук . Накратко, файл robots.txt може да ограничат специфични ботове от пълзене на целия сайт или част от него. За да направите това, всички ботове имат специален подпис. Например, индекс на Google бот се нарича Googlebot, се нарича бот Bing MSNbot, и бота на Yahoo се нарича Yahoo! Slurp.
Влизане в robots.txt файла може да изглежда като този:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Тук ние се казва Slurp на потребителския агент, че тя може да получите достъп до всички страници, намиращи се в директорията, започвайки с "публично", и нямат достъп до страници с "_print" в URI.
По-долу е пълен файла robots.txt за един от моите експериментални сайтове WordPress (аз ще публикувате статия обяснява какво искам да кажа от експериментални сайт друг ден). Проницателен читатели може да се отбележи, че съм недопускане всички потребителски агенти от определени директории, и само някои специфични потребителски агенти достъп до останалите области на моя сайт. Последната актуализация на стандарта също ми позволява да се изброят мястото на моята карта на сайта, за да помогне на търсачките да намерите всички на моите страници.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Недопускане на ботове достъп до съдържание, които не са предназначени за консумация от ще гарантират, че вашият сайт ще остане ключова дума, оптимизирани на всички страници, като по този начин помага насърчаване на вашия сайт в класацията на търсачката. Кажете например, са работили усърдно, оптимизиране на всички страници за ключовата дума "наддаване на тегло" и различни дълги опашки. Работата Ви може да бъдат филтрирани в очите на търсачката, ако то е в състояние да пълзи си за вход страница, страницата на личния живот и формата за контакт.
Някои SEO експерти също твърдят, че Google наказва младите уебсайтове в полза на старите по-утвърдени сайтове. Google очевидно използва Internet Archive (намира се тук ) за определяне на възрастта на даден сайт. Ако не, може да намерите на сайта в архива, той очевидно приема, че сайта е на определена възраст. Поради тази причина, много хора активно да спре Internet Archive User-Agent индексирането на сайта им. Това може да стане чрез включване на следните редове:
User-agent: ia_archiver-web.archive.org
Disallow: /
Може да искате да се спре графични ботове от достъп до снимките си, ако те са заимствали Сток снимки от други сайтове. Това може да стане така:
User-agent: Googlebot-Image
Allow: /
И накрая, robots.txt може да се използва за да се изключи ботове от конкретни страници, които могат да бъдат използвани за показване на съдържание, които могат да бъдат на разположение на други сайтове или страници. Често се твърди, че Google ще накаже отлични оценки за показване на дублиране на съдържанието. Аз лично не виждам това като голям проблем и се повярва, че дублиране на съдържанието действително може да помогне рейтинг на Вашия сайт, който е в някои случаи (повече за това друг ден). Както и да е, да спрете бота от достъп до определена страница, добавете следните редове:
User-agent: *
Disallow: */my-duplicate-page.html
Имайте предвид, че това не е глупак доказателство метод. Ако вашият забранени страница има връзки към него от друг сайт, тя все още ще бъде обходен от ботове.
Бих могъл да продължи да функционира, но аз съм сигурен, че всички вие сте отегчени от сега. Чувствайте се свободни да коментират по-долу или се свържете с мен директно, ако искате да знаете повече.
Happy roboting.