Tämä viesti on pitkä, mutta tärkeä. Suosittelen nappaat kuppi kuumaa kaakaota käyttö ennen 
Jos et ole kuullut robots.txt-tiedoston, se on yksinkertaisesti pieni tiedosto sijaitsee sivuston juurihakemistossa joka ohjaa hakukoneita, mitä he saavat tai eivät saa tehdä. Vaikka ei tiukasti, hakukonerobotit yleensä vahvistettujen sääntöjen eteenpäin robots.txt-tiedoston. Kun oikein konfiguroitu robots.txt-tiedoston avulla voit esimerkiksi yrittää torjua roskapostia vastaan, kertovat Google ei indeksoi kuvia tai ohjeet botit hypätä sivuille, jotka voivat sisältää päällekkäistä sisältöä.
Botit ovat pieniä ohjelmia, joita hakukone Yritykset, roskapostittajat ja sisältö akut ryömimään Internet löytää uusia tai muutettuja sisältöä. Bot tehtävänä on seurata linkkejä sivuston indeksoinnin sivulta sivulle ja sivustosta toiseen. Se on tavallaan kuin kuusi astetta Kevin Bacon juttu. Seuraa tarpeeksi linkkejä ja sinun pitäisi lopulta löytää kaikki sisältö verkossa. Siksi linkit ovat niin tärkeitä. Enemmän käänteisiä olet, sitä helpommin hakukoneiden löytää sisältöä. On kirjaimellisesti miljoonia bot tapauksissa troolaus net kerrallaan. Virallinen termi botti on user-agent joita on tuhansia. Lets Google esimerkiksi. Google on monien eri käyttäjäryhmien-aineita käytetään indeksoida sivustosi, poimia kuvia ja videoita, löytää uutissyötteitä löytää matkapuhelimen sisällön, tarkistaa sivustosi AdSense laadun ja niin edelleen. Tämä sivusto details täydellinen luettelo tunnetuista user-agentteja.
Robots.txt-tiedosto on noin iät ja ajat. Se oli oikeastaan käyttöön AltaVista vuonna 1994, mutta nyt on peruselintarvike web hämähäkkejä. Täydellinen kuvaus tiedoston ja sen normi-merkintää, vierailla täällä . Lyhyesti sanottuna, robots.txt-tiedoston voi rajoittaa tiettyjen botit indeksoimaan koko sivuston tai sen osan. Voit tehdä tämän, kaikki botit on erityinen allekirjoitusta. Esimerkiksi Googlen indeksissä botti kutsutaan Googlebot, Bing n botti on nimeltään MSNbot, ja Yahoon botti on nimeltään Yahoo! ryystää.
Merkinnän robots.txt-tiedoston voi näyttää tältä:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Täällä me kerromme ryystää user agentin, se voi käyttää kaikkia sivuja sijaita missä tahansa hakemistossa alkaa "julkinen", eikä heillä ole pääsyä sivuille, joissa on "_print" in URI.
Alla on täydellinen robots.txt-tiedosto eräs kokeellinen WordPress sivustot (Laitan artikkeli selittää mitä tarkoitan kokeellinen sivusto toinen päivä). Kokeneet lukijat saattavat huomata, että olen hylännyt kaikki käyttäjän agentit erityisiä hakemistoja, ja sallii vain tiettyjä selaimia pääsy jäljellä alueilla sivustoni. Viime päivitys standardi mahdollistaa myös minun luetella sijainnin sivustokarttatiedostojeni auttaa hakukoneita löytämään kaikkia sivujani.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Hylännyt botit käyttämästä sisältöä ei ole tarkoitettu käytettäväksi varmistaa, että sivustosi pysyy avainsanan optimoitu kaikilla sivuilla, mikä auttaa edistämään sivuston sisällä hakukoneissa. Sano esimerkiksi sinulla on työskennellyt kovasti pyritään optimoimaan kaikilla sivuilla hakusanalla "painonnousu" ja eri pitkähäntäisiä. Työsi voidaan suodattaa alas silmissä hakukone, jos se pystyi indeksoida kirjautumissivulle, yksityisyys sivu ja yhteydenottolomake.
Jotkut SEO asiantuntijat väittävät myös, että Google rankaisee nuoria sivustot hyväksi vanhempien vakiintuneempia sivustoja. Google ilmeisesti käyttää Internet Archive (löytyy täältä ) iän määrittämiseksi sivusto. Jos se ei löydä sivuston arkistosta, se ilmeisesti olettaa sivusto on tietyn iän. Tästä syystä monet ihmiset aktiivisesti lopettaa Internet Archive user-agent indeksoimasta niiden päällä. Tämä voidaan tehdä esimerkiksi seuraavat rivit:
User-agent: ia_archiver-web.archive.org
Disallow: /
Haluat ehkä myös pysäyttää kuvan botit käyttämästä kuvia, jos ne on lainattu ei-kuvituskuvia muista sivustoista. Tämä voidaan tehdä esimerkiksi näin:
User-agent: Googlebot-Image
Allow: /
Lopuksi robots.txt voidaan sulkea botit tietyiltä sivuilta, joita voidaan käyttää sisällön näyttämiseen jotka voivat olla käytettävissä muiden sivustojen tai sivujen. Usein väitetään, että Google rankaisee luokituksesi näyttämällä päällekkäistä sisältöä. Itse en näe tätä iso asia ja uskon, että päällekkäistä sisältöä voi todella auttaa sivustosi rating joissain tapauksissa (lisää tästä toinen päivä). Anyway, lopettaa bot käyttämästä tiettyä sivua, lisää seuraavat rivit:
User-agent: *
Disallow: */my-duplicate-page.html
Huomaa, että tämä ei ole tyhmä estävää menetelmää. Jos sovitella sivu on linkkejä sen toisesta sivustosta, se on edelleen indeksoida botteja.
Voisin jatkaa matkaa, mutta olen varma että te kaikki olette kyllästynyt tähän mennessä. Voit vapaasti kommentoida alla tai ota suoraan yhteyttä minuun, jos haluatte tietää lisää.
Hyvää roboting.