Robots.txt SEO technieken
Dit bericht is een lange maar belangrijke. Ik adviseer u een kop warme chocolademelk te pakken voordat je start ![]()
Als u nog niet gehoord van het robots.txt-bestand, het is gewoon een klein bestand dat zich in uw website root directory dat zoekmachines instrueert over wat ze wel en niet kan doen. Hoewel het niet strikt gehandhaafd, zal zoekmachine bots over het algemeen aan de regels naar voren in het robots.txt-bestand. Met een goed geconfigureerde robots.txt-bestand kun je bijvoorbeeld proberen af te weren spam bots, vertel google niet te indexeren van uw afbeeldingen of instrueren bots van pagina's die duplicate content kan bevatten over te slaan.
Bots zijn stukjes software die wordt gebruikt door zoekmachine bedrijven, spammers en inhoud accu's met het internet te doorzoeken, zodat nieuwe of gewijzigde inhoud te vinden. Een bot is de taak van links te volgen op een website te kruipen van pagina naar pagina en site tot site. Het is een soort van Six Degrees of Kevin Bacon ding. Volg genoeg links en je moet uiteindelijk vinden alle inhoud op het net. Dit is de reden waarom backlinks zo belangrijk zijn. Hoe meer backlinks je hebt, hoe makkelijker het is voor zoekmachines te vinden uw inhoud. Er zijn letterlijk miljoenen bot gevallen trawlvisserij het net op een bepaald moment. De officiële term voor een bot is een user-agent en dat zijn er duizenden. Laten we Google bijvoorbeeld. Google heeft veel verschillende user-agents gebruikt voor het indexeren van uw site, halen afbeeldingen en video's, het vinden van nieuws-feeds, het vinden van mobiele telefoon-inhoud, controleer uw site voor Adsense kwaliteit en ga zo maar door. Deze website gegevens een volledige lijst van bekende user-agents.
Het robots.txt-bestand bestaat al eeuwen. Het was eigenlijk geïntroduceerd door AltaVista in 1994, maar nu blijft een hoofdvoedsel voor web spinnen. Voor een volledige beschrijving van het bestand en de standaard notatie, een bezoek hier . Kortom, een robots.txt-bestand te beperken specifieke bots doorzoeken van uw gehele site of een deel daarvan. Hiertoe alle bots een speciale handtekening. Bijvoorbeeld, Google's index bot heet Googlebot, wordt Bing bot genoemd MSNBot en Yahoo bot heet Yahoo! Slurp.
Een vermelding in het robots.txt-bestand kan er als volgt uitzien:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Hier zijn we het vertellen van de Slurp user agent dat het kan alle pagina's in een directory die beginnen met "publiek" toegang te krijgen, en hebben geen toegang tot pagina's met "_print" in de URI.
Hieronder vindt u een compleet robots.txt-bestand voor een van mijn experimentele WordPress sites (ik zal een artikel uit te leggen wat ik bedoel met experimentele site een andere dag post). Oplettende lezers zullen merken dat ik alle user agents niet toe te staan van specifieke mappen en slechts toe te staan een aantal specifieke user agents toegang tot de overige gebieden van mijn site. Een recente update van de standaard maakt het ook mogelijk dat ik een lijst van de locatie van mijn site map om te helpen zoekmachines vinden al mijn pagina's.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Niet toe te staan bots toegang hebben tot de inhoud niet bestemd voor consumptie zal ervoor zorgen dat uw site zoekwoord geoptimaliseerd op alle pagina's te blijven, waardoor het helpen van je site te promoten binnen de zoekmachine rankings. Stel je bijvoorbeeld hard gewerkt aan het optimaliseren van alle pagina's op het trefwoord "gewichtstoename" en de verschillende lange staarten. Uw werk kan worden gefilterd in de ogen van de zoekmachine als het was in staat om uw login pagina, privacy pagina en contact formulier in te kruipen.
Sommige SEO experts stellen ook dat Google jonge websites straft in het voordeel van oudere, meer gevestigde sites. Google gebruikt blijkbaar de Internet Archive (gevonden hier ) om te bepalen van de leeftijd van een site. Als het niet kan vinden de site in het archief, het gaat blijkbaar de site is een bepaalde leeftijd. Om deze reden hebben veel mensen actief te stoppen met het Internet Archive user-agent van het indexeren van hun site. Dit kan gedaan worden door de volgende regels:
User-agent: ia_archiver-web.archive.org
Disallow: /
Misschien wilt u ook foto bots stoppen toegang krijgen tot uw foto's als ze geleend hebben non-beelden van andere sites. Dit kan gedaan worden op deze manier:
User-agent: Googlebot-Image
Allow: /
Tot slot kan robots.txt gebruikt worden om bots van specifieke pagina's die kunnen worden gebruikt om inhoud die beschikbaar zijn op andere sites of pagina's weer te geven uit te sluiten. Er wordt vaak beweerd dat Google uw website te straffen voor het weergeven van duplicate content. Ik persoonlijk zie dit niet als een groot probleem en geloven dat duplicate content kan eigenlijk van uw site waardering te helpen in sommige gevallen (meer over weten een andere dag). Hoe dan ook, om een bot van de toegang tot een specifieke pagina te stoppen, de volgende regels toevoegen:
User-agent: *
Disallow: */my-duplicate-page.html
Merk op dat dit geen fool-proof methode. Als je niet toegestaan pagina bevat links om het van een andere site, zal het nog steeds bezocht worden door de bots.
Ik kon blijven gaan, maar ik weet zeker dat je alle verveeld door nu. Voel je vrij om hieronder reageren of contact met mij direct als u meer wilt weten.
Gelukkig roboting.



















