Овај пост је дуг али важна. Препоручујем вам узмите шољу топле чоколаде пре почетка 
Ако нисте чули за роботс.ткт датотеке, то је једноставно мала датотека налази у директоријуму вашег сајта корена који упућује претраживаче на оно што могу и не може да уради. Иако није стриктно спроводи, сеарцх енгине ботови ће генерално поштују правила постављене напред у роботс.ткт фајлу. Уз правилно конфигурисан роботс.ткт фајлу можете, на пример, покушај да се одбити спам ботова, да не кажем Гоогле индекс своје слике или наложити ботове да прескочите странице које могу да садрже дуплиране садржај.
Ботови су делови софтвера које користи претраживача компаније, спамера и садржајем акумулатора да пузи на интернету да бисте пронашли нови или измењени садржај. Бот посао је да прати линкове на веб сајту пописивању са стране на страну и сајт на сајт. То је врста као што је шест степени Кевин Бацон ствари. Пратите линкове довољно и да на крају треба да нађу све податке на нету. То је разлог зашто су тако важне повратне везе. Што више повратне имате, лакше је за претраживача пронаћи свој садржај. Постоје буквално милиони бот инстанцама травлинг мрежу у било ком тренутку. Званични назив за бота је Усер-Агент којих има на хиљаде. Узмимо на пример Гоогле. Гоогле има много различитих кориснички агенти који се користе за индекс свој сајт, издвојили слике и видео снимке, пронаћи изворе вести, наћи садржаје за мобилни телефон, проверите свој сајт за Адсенсе квалитет и тако даље. Ова страница детаљно комплетну листу познатих корисник-агената.
Фајл роботс.ткт је око вековима. То је заправо увео АлтаВисте у 1994, али сада остаје сортирано хране за веб паука. За комплетан опис датотеке и њене стандардне нотације, посетите овде . Укратко, фајл роботс.ткт може да ограничи специфичне ботови из пописују ваш цео сајт односно његовог дела. Да бисте то урадили, сви ботови имају посебну потпис. На пример, Гоогле-ов индекс Провајдер се зове Гооглебот, Бинг је Провајдер се зове МСНбот и Иахоо-а Провајдер се зове ен-УС.
Унос у роботс.ткт датотеци може да изгледа овако:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Овде се говоре Слурп кориснички агент који јој можете приступити све странице које се налазе у сваком именику почевши са "јавни", а немају приступ страницама са "_принт" у УРИ.
Испод је комплетан Фајл роботс.ткт за једног од мојих сајтова (експерименталних УордПресс ћу писати чланак објашњава шта мислим по експерименталном сајту други дан). Мудар читаоци могу приметити да сам дисалловинг све корисничке агенте из специфичних директоријума, а само омогућава неке специфичне кориснички агенти приступ преосталим областима мом сајту. Недавно ажурирање стандарда и омогућава ми да наведете локацију свог сајта мапи да помогне претраживачи пронашли све моје странице.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Дисалловинг ботове приступ садржај није намењен за потрошњу ће осигурати да ваш сајт оптимизован остати кључна реч на свим странама, и тако помоћи промовисати свој сајт у оквиру ранг листи претраживача. Рецимо на пример сте напорно радили на оптимизацији све странице за кључне речи "дебљање" и разних дугим реповима. Ваш рад може бити филтрирани доле у очима претраживача ако је био у стању да попише своју страницу за пријављивање, приватност страницу и контакт форму.
Неки СЕО стручњаци такође тврде да Гоогле кажњава младе сајтове у корист старијих више утврђених локација. Гоогле очигледно користи Интернет Арцхиве (наћи овде ) да се утврди старост сајта. Ако то не може да пронађе локацију у архиву, очигледно претпоставља сајт је извесно доба. Из тог разлога, многи људи активно зауставите Интернет Арцхиве корисник-агент од индексира њихов сајт. То може бити урађено, укључујући следеће линије:
User-agent: ia_archiver-web.archive.org
Disallow: /
Можда ћете желети да се заустави ботове слике од приступа ваших слика ако су позајмили не-деоница слике са других сајтова. Ово се може урадити овако:
User-agent: Googlebot-Image
Allow: /
Коначно, роботс.ткт може да се користи да се искључе ботови из одређених страница које се могу употребити за приказивање садржаја који може бити доступан на другим сајтовима или страницама. Често се тврди да ће Гоогле казнити своје оцене за приказивање дуплирани садржај. Ја лично не видим то као велики проблем и верујем да могу дупликат садржај заправо помаже рејтинг вашег сајта, у неким случајевима (више о томе неки други дан). У сваком случају, да се заустави бот приступи одређену страницу, додајте следеће линије:
User-agent: *
Disallow: */my-duplicate-page.html
Имајте на уму да ово није будала-доказ метод. Ако ваш дозвољено страница има линкове на њега из неког другог сајта, то ће ипак бити пописан од робота.
Могао бих да наставим, али сигуран сам да сте сви до сада досадно. Слободно коментар испод или контактирајте ме директно ако желите да сазнате више.
Срећан роботинг.