Questo post è lungo ma importante. Vi consiglio di prendere una tazza di cioccolata calda prima della partenza 
Se non avete sentito parlare del file robots.txt, si tratta semplicemente di un piccolo file che si trova nella directory web root che istruisce i motori di ricerca su quello che possono e non possono fare. Sebbene non sia applicata rigorosamente, bot dei motori di ricerca in genere rispettare le regole stabilite in avanti nel file robots.txt. Con un file robots.txt configurato correttamente è possibile, ad esempio, il tentativo di respingere bots spam, deve dire a Google di non indicizzare le vostre immagini o istruire i bot di saltare le pagine che potrebbero contenere contenuti duplicati.
I bot sono pezzi di software utilizzati da società di ricerca del motore, gli spammer e gli accumulatori per eseguire la scansione dei contenuti Internet per trovare i contenuti nuovi o modificati. Il compito di un bot è quello di seguire i link su un sito web crawling da pagina a pagina e un sito all'altro. E 'una specie di Six Degrees of Kevin Bacon cosa. Segui i collegamenti abbastanza e si dovrebbe infine trovare tutti i contenuti sulla rete. Questo è il motivo a ritroso sono così importanti. I backlinks più hai, più è facile per i motori di ricerca per trovare i tuoi contenuti. Ci sono letteralmente milioni di istanze bot pesca a strascico in rete in qualsiasi momento. Il termine ufficiale per un bot è un user-agent di cui ci sono migliaia. Prendiamo Google per esempio. Google ha molte differenti user-agent utilizzati per indicizzare il tuo sito, estrarre immagini e video, trovare feed di notizie, trovare contenuti cellulare, controllare il sito per la qualità Adsense e così via. Questo sito dettaglio un elenco completo di note user-agent.
Il file robots.txt è stato intorno per le età. In realtà è stato introdotto da AltaVista nel 1994, ma ora rimane un alimento di base per gli spider web. Per una descrizione completa del file e la sua notazione standard, visitare il sito qui . In breve, un file robots.txt può limitare bots specifiche da scansione del tuo intero sito o parte di esso. Per fare questo, tutti i bot hanno una firma speciale. Ad esempio, bot di Google si chiama Googlebot, bot si chiama Bing MSNbot, bot e Yahoo si chiama Yahoo! Slurp.
Una voce nel file robots.txt potrebbe assomigliare a questo:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Qui stiamo dicendo la user agent Slurp che possa accedere a tutte le pagine si trovano in qualsiasi directory che inizia con "pubblico", e non hanno accesso a pagine con "_print" nella URI.
Di seguito è riportato un file robots.txt completo per uno dei miei siti sperimentali WordPress (vi posto un articolo che spiega che cosa intendo per sito sperimentale un altro giorno). I lettori più attenti potrebbero notare che io sono disabilitare tutti gli interpreti da elenchi specifici e consentendo solo alcuni agenti di utenti specifici di accedere alle restanti aree del mio sito. Un recente aggiornamento allo standard permette anche a me elencare il percorso della mia mappa del sito per aiutare i motori di ricerca a trovare tutte le mie pagine.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Impedire che i bot di accedere a contenuti non destinati al consumo farà in modo che il tuo sito rimarrà parola chiave ottimizzata in tutte le pagine, contribuendo così a promuovere il tuo sito entro posizionamento nei motori di ricerca. Diciamo per esempio hai lavorato sodo per ottimizzare tutte le pagine per il "peso" delle parole chiave e le code lunghe diversi. Il vostro lavoro può essere filtrato agli occhi del motore di ricerca se era in grado di eseguire la scansione della pagina di login, pagina dedicata alla privacy e il modulo di contatto.
Alcuni esperti SEO sostengono anche che Google punisce siti web dei giovani a favore degli anziani siti più affermati. Google a quanto pare utilizza Internet Archive (che si trova qui ) per determinare l'età di un sito. Se non riesce a trovare il sito in archivio, assume a quanto pare il sito è una certa età. Per questo motivo, molte persone attivamente fermare l'Internet Archive user-agent di indicizzare il proprio sito. Ciò può essere fatto includendo le linee seguenti:
User-agent: ia_archiver-web.archive.org
Disallow: /
Si consiglia di fermarsi anche bots immagine di accedere ai quadri se ne è preso in prestito non stock immagini da altri siti. Questo può essere fatto in questo modo:
User-agent: Googlebot-Image
Allow: /
Infine, robots.txt può essere usato per escludere dal bots pagine specifiche che possono essere utilizzati per visualizzare il contenuto che può essere disponibile su altri siti o pagine. Si sostiene spesso che Google punirà i vostri voti per la visualizzazione di contenuti duplicati. Io personalmente non vedo questo come un grande problema e credo che il contenuto duplicato può effettivamente aiutare Valutazione del tuo sito in alcuni casi (più un altro giorno). Comunque, per fermare un bot di accedere a una pagina specifica, aggiungere le seguenti righe:
User-agent: *
Disallow: */my-duplicate-page.html
Si noti che questo non è un infallibile metodo. Se la pagina non consentito ha collegamenti ad esso da un altro sito, sarà ancora sottoposti a scansione dai bot.
Potrei andare avanti, ma sono sicuro che sono tutti annoiati ormai. Sentitevi liberi di commentare qui sotto o contattarmi direttamente se volete saperne di più.
Roboting felice.