Robots.txt Τεχνικές SEO
Αυτή η θέση είναι πολύ σημαντική, αλλά μία. Θα σας συνιστούσαμε να αρπάξει ένα φλιτζάνι ζεστή σοκολάτα πριν από την έναρξη σας ![]()
Εάν δεν έχετε ακούσει για το αρχείο robots.txt, αυτό είναι απλά ένα μικρό αρχείο που βρίσκεται στον κατάλογο ρίζας ιστοσελίδα σας που καθοδηγεί τις μηχανές αναζήτησης σχετικά με το τι μπορούν και τι δεν μπορεί να κάνει. Αν και δεν είναι αυστηρά, bots μηχανή αναζήτησης θα τηρούν γενικά τους κανόνες που έχουν ορισθεί στο αρχείο robots.txt. Με ένα σωστά διαμορφωμένο αρχείο robots.txt μπορείτε, για παράδειγμα, προσπαθούν να προστατεύσουν από spam bots, πείτε στο Google να μην δείκτη εικόνες σας ή να αναθέσει bots για να παρακάμψετε τις σελίδες που μπορεί να περιέχουν διπλό περιεχόμενο.
Ρομπότ είναι κομμάτια του λογισμικού που χρησιμοποιείται από τις εταιρείες αναζήτηση spammers μηχανών, και συσσωρευτές περιεχομένου για να ανιχνεύσουμε το Διαδίκτυο για να βρουν νέες ή τροποποιημένες περιεχόμενο. Το έργο του bot είναι να ακολουθήσετε συνδέσεις σε έναν ιστοχώρο σέρνεται από σελίδα σε σελίδα και τόπο σε τόπο. Είναι σαν ένα είδος Six Degrees του Κέβιν Μπέικον πράγμα. Ακολουθήστε αρκετά συνδέσεις και θα πρέπει να βρει τελικά όλο το περιεχόμενο στο διαδίκτυο. Αυτός είναι ο λόγος backlinks είναι τόσο σημαντικό. Τα περισσότερα backlinks έχετε, τόσο πιο εύκολο είναι για τις μηχανές αναζήτησης για να βρουν το περιεχόμενό σας. Υπάρχουν κυριολεκτικά εκατομμύρια των περιπτώσεων bot αλιείας με τράτες το καθαρό ανά πάσα στιγμή. Ο επίσημος όρος για ένα bot είναι ένα παράγοντα-χρήστη του οποίου υπάρχουν χιλιάδες. Ας πάρουμε για παράδειγμα το Google. Το Google έχει πολλές διαφορετικές χρήστη-παράγοντες που χρησιμοποιούνται για το site σας ευρετήριο, το εκχύλισμα εικόνες και βίντεο, να βρείτε τροφοδοσίες ειδήσεων, βρείτε περιεχομένου κινητής τηλεφωνίας, ελέγξτε το site σας για την ποιότητα Adsense και ούτω καθεξής. Αυτή η ιστοσελίδα λεπτομέρειες μια πλήρη λίστα των γνωστών χρηστών-υπαλλήλων.
Το αρχείο robots.txt ήταν γύρω για πολύ καιρό. Ήταν πράγματι εισήχθησαν από την AltaVista το 1994, αλλά τώρα παραμένει ένα βασικό είδος διατροφής για τις αράχνες Ιστού. Για μια πλήρη περιγραφή του αρχείου και το τυπικό συμβολισμό της, επισκεφθείτε εδώ . Εν ολίγοις, ένα αρχείο robots.txt για να περιορίσετε την συγκεκριμένη bots από την ανίχνευση ολόκληρη την τοποθεσία σας ή μέρος αυτού. Για να γίνει αυτό, όλα τα ρομπότ έχουν ένα ειδικό υπογραφής. Για παράδειγμα, bot ευρετήριο του Google, ονομάζεται το Googlebot, το bot του Bing ονομάζεται MSNbot, και της Yahoo bot ονομάζεται Slurp Yahoo!.
Μια καταχώρηση στο αρχείο robots.txt μπορεί να μοιάζει κάπως έτσι:
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Εδώ λέμε τον πράκτορα χρήστη Slurp ότι μπορούν να έχουν πρόσβαση σε όλες τις σελίδες που βρίσκονται σε κατάλογο που αρχίζει με «κοινό», και δεν έχουν πρόσβαση σε σελίδες με "_print" στην ΠΕΚ.
Παρακάτω είναι ένα πλήρες αρχείο robots.txt για μία από τις πειραματικές περιοχές WordPress μου (εγώ θα δημοσιεύσει ένα άρθρο που εξηγεί τι εννοώ με την πειραματική τοποθεσία άλλη μέρα). Οι έξυπνοι αναγνώστες μπορούν να σημειώσετε ότι έχω απορρίψει το σύνολο πράκτορες χρήστη από συγκεκριμένους καταλόγους, και επιτρέποντας μόνο κάποια συγκεκριμένα οι πράκτορες χρήστη να έχει πρόσβαση στις υπόλοιπες περιοχές της ιστοσελίδας μου. Μία πρόσφατη αναβάθμιση στο πρότυπο επιτρέπει επίσης στη λίστα με τη θέση του χάρτη της ιστοσελίδας μου για να βοηθήσει τις μηχανές αναζήτησης να βρείτε όλες τις σελίδες μου.
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Sitemap: http://beginnerchess.org/sitemap.xml
Απαγορεύοντας την πρόσβαση bots περιεχόμενο που δεν προορίζονται για κατανάλωση θα εξασφαλίσει ότι η ιστοσελίδα σας θα παραμείνει κλειδί βελτιστοποιημένη σε όλες τις σελίδες, συμβάλλοντας έτσι στην προώθηση του site σας μέσα στις μηχανές αναζήτησης. Ας πούμε για παράδειγμα έχετε εργαστεί σκληρά για τη βελτιστοποίηση όλων των σελίδων για τη λέξη "αύξηση του σωματικού βάρους» και τις διάφορες μεγάλες ουρές. Η εργασία σας μπορεί να φιλτράρονται τα κάτω στα μάτια των μηχανών αναζήτησης, εάν ήταν σε θέση να ανιχνεύσουμε τη σελίδα σύνδεσής σας, σελίδα προστασία της ιδιωτικής ζωής και φόρμα επικοινωνίας.
Μερικοί εμπειρογνώμονες SEO υποστηρίζουν επίσης ότι η Google τιμωρεί τους νέους δικτυακούς τόπους υπέρ των ηλικιωμένων πιο καθιερωμένες περιοχές. Η Google χρησιμοποιεί το Διαδίκτυο προφανώς Αρχείο (βρέθηκαν εδώ ) για να καθορίσουν την ηλικία του ενός τόπου. Εάν δεν μπορείτε να βρείτε την τοποθεσία στο αρχείο, θεωρεί προφανώς η περιοχή είναι μια ορισμένη ηλικία. Για το λόγο αυτό, πολλοί άνθρωποι σταματούν ενεργά το Internet Archive χρήστη-πράκτορα από την ευρετηρίαση το site τους. Αυτό μπορεί να γίνει με τη συμπερίληψη τις ακόλουθες γραμμές:
User-agent: ia_archiver-web.archive.org
Disallow: /
Μπορεί να θέλετε να σταματήσετε επίσης bots εικόνα από την πρόσβαση σε εικόνες σας σε περίπτωση που έχουν δανειστεί μη απόθεμα εικόνες από άλλους δικτυακούς τόπους. Αυτό μπορεί να γίνει με αυτόν τον τρόπο:
User-agent: Googlebot-Image
Allow: /
Τέλος, robots.txt μπορεί να χρησιμοποιηθεί για τον αποκλεισμό από τα bots συγκεκριμένες σελίδες που μπορεί να χρησιμοποιηθεί για την εμφάνιση περιεχομένου που μπορεί να είναι διαθέσιμες σε άλλους δικτυακούς τόπους ή σελίδες. Υποστηρίζεται συχνά ότι η Google θα τιμωρήσει τις αξιολογήσεις σας για την εμφάνιση διπλό περιεχόμενο. Εγώ προσωπικά δεν βλέπω αυτό ως ένα μεγάλο ζήτημα και πιστεύω ότι το διπλό περιεχόμενο μπορεί να βοηθήσει πραγματικά το site σας βαθμολογία σε ορισμένες περιπτώσεις (περισσότερα για αυτό μια άλλη ημέρα). Τέλος πάντων, για να σταματήσει ένα bot από την πρόσβαση σε μια συγκεκριμένη σελίδα, προσθέστε τις ακόλουθες γραμμές:
User-agent: *
Disallow: */my-duplicate-page.html
Σημειώστε ότι αυτό δεν είναι ένα ηλίθιο τρόπο. Αν αρθεί η σελίδα σας έχει δεσμούς με την από άλλο site, θα εξακολουθεί να ανιχνευθεί από τα bots.
Θα μπορούσα να συνεχίσω, αλλά είμαι σίγουρος ότι όλοι βαρεθεί από τώρα. Μη διστάσετε να σχολιάσει παρακάτω ή επικοινωνήστε μαζί μου άμεσα, αν επιθυμείτε να μάθετε περισσότερα.
Καλή roboting.




















Γεια σου,
markbeljaars.com να GoogleReader!
Ευχαριστίες
Bernier