17 November 2009 2 Komentar

Robots.txt Teknik SEO

http://markbeljaars.com/wp-content/plugins/sociofluid/images/digg_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/reddit_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/stumbleupon_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/delicious_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/furl_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/technorati_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/facebook_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/yahoobuzz_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/mixx_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/twitter_48.png~~V

Posting ini adalah satu panjang tapi penting. Saya sarankan Anda mengambil secangkir cokelat panas sebelum mulai Anda :)

Jika Anda belum mendengar tentang file robots.txt, itu hanya sebuah file kecil yang terletak di direktori root situs web Anda yang menginstruksikan mesin pencari pada apa yang mereka bisa dan tidak bisa lakukan. Meskipun tidak ketat, cari bot mesin umumnya akan menghormati aturan yang ditetapkan maju dalam file robots.txt. Dengan file robots.txt dikonfigurasi dengan benar Anda dapat, misalnya, mencoba untuk menangkis spam bots, katakan google akan indeks gambar Anda atau menginstruksikan bot untuk melewati halaman yang mungkin berisi duplikat konten.

Bot buah perangkat lunak yang digunakan oleh mesin pencari perusahaan, spammer dan akumulator konten merangkak internet untuk menemukan konten baru atau dimodifikasi. Pekerjaan bot adalah untuk mengikuti link pada situs web merangkak dari halaman ke halaman dan situs ke situs. Ini semacam seperti Six Degrees of Kevin Bacon hal. Ikuti link yang cukup dan akhirnya Anda harus menemukan semua konten di internet. Inilah sebabnya mengapa backlink sangat penting. Semakin banyak backlink yang Anda miliki, semakin mudah untuk mesin pencari untuk menemukan konten Anda. Ada jutaan contoh bot trawl net pada satu waktu. Istilah resmi untuk bot adalah user-agen yang ada ribuan. Mari kita Google misalnya. Google memiliki banyak pengguna yang berbeda-agen digunakan untuk situs telunjuk Anda, ekstrak gambar dan video, menemukan feed berita, menemukan konten ponsel, memeriksa situs Anda untuk kualitas Adsense dan sebagainya. Ini situs rincian daftar lengkap diketahui user-agen.

File robots.txt telah sekitar untuk usia. Ini sebenarnya diperkenalkan oleh AltaVista pada tahun 1994, tapi sekarang tetap menjadi makanan pokok bagi spider web. Untuk keterangan lengkap dari file dan notasi standar, kunjungi di sini . Singkatnya, file robots.txt dapat membatasi bot tertentu dari merangkak seluruh situs Anda atau bagian daripadanya. Untuk melakukan ini, semua bot memiliki tanda tangan khusus. Sebagai contoh, bot indeks Google disebut Googlebot, bot Bing disebut MSNbot, dan bot Yahoo disebut Slurp Yahoo!.

Entri pada file Robots.txt mungkin terlihat seperti ini:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html

Di sini kita menceritakan agen Slurp pengguna yang dapat mengakses semua halaman yang terletak di direktori yang dimulai dengan "publik", dan tidak memiliki akses ke halaman dengan "_print" dalam URI.

Di bawah ini adalah file robots.txt lengkap untuk salah satu situs eksperimen saya Wordpress (saya akan posting sebuah artikel yang menjelaskan apa yang saya maksud dengan situs eksperimental hari lain). Pembaca cerdik dapat mencatat bahwa saya melarang semua agen pengguna dari direktori tertentu, dan hanya mengizinkan beberapa agen pengguna tertentu akses ke daerah sisa situs saya. Sebuah update terbaru pada standar ini juga memungkinkan saya untuk membuat daftar lokasi peta situs saya untuk membantu mesin pencari menemukan semua halaman saya.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://beginnerchess.org/sitemap.xml

Pelarangan bot dari mengakses konten tidak dimaksudkan untuk konsumsi akan memastikan bahwa situs Anda akan tetap kata kunci dioptimalkan pada semua halaman, sehingga membantu mempromosikan situs Anda dalam peringkat mesin pencari. Katakanlah misalnya Anda telah bekerja keras mengoptimalkan semua halaman untuk "berat badan" kata kunci ekor panjang dan beragam. Pekerjaan Anda dapat disaring turun di mata mesin pencari jika ia mampu merangkak halaman login, halaman privasi dan formulir kontak.

Beberapa ahli SEO juga berpendapat bahwa Google situs menghukum muda dalam mendukung situs lebih mapan lebih tua. Google ternyata menggunakan Internet Archive (ditemukan di sini ) untuk menentukan umur dari sebuah situs. Jika tidak dapat menemukan situs dalam arsip, itu tampaknya mengasumsikan situs ini adalah usia tertentu. Untuk alasan ini, banyak orang secara aktif menghentikan Internet Archive agen-pengguna mengindeks situs mereka. Hal ini dapat dilakukan dengan memasukkan baris berikut:

User-agent: ia_archiver-web.archive.org
Disallow: /

Anda mungkin ingin juga menghentikan bot gambar dari mengakses gambar Anda jika mereka meminjam non-stock gambar dari situs lain. Hal ini dapat dilakukan seperti:

User-agent: Googlebot-Image
Allow: /

Akhirnya, robots.txt dapat digunakan untuk mengecualikan bot dari halaman tertentu yang dapat digunakan untuk menampilkan konten yang mungkin tersedia di situs lain atau halaman. Hal ini sering berpendapat bahwa Google akan menghukum peringkat Anda untuk menampilkan duplikat konten. Saya pribadi tidak melihat ini sebagai masalah besar dan percaya bahwa konten duplikat benar-benar dapat membantu Peringkat situs anda dalam beberapa kasus (lebih lanjut tentang ini hari lain). Anyway, untuk menghentikan bot dari mengakses halaman tertentu, tambahkan baris berikut:

User-agent: *
Disallow: */my-duplicate-page.html

Catatan bahwa ini bukan metode bodoh-bukti. Jika halaman dianulir Anda memiliki link ke sana dari situs lain, masih akan dijelajahi oleh bot.

Aku bisa terus, tapi aku yakin Anda semua bosan sekarang. Jangan ragu untuk komentar di bawah ini atau hubungi saya langsung jika Anda ingin tahu lebih banyak.

Selamat roboting.

Posting terkait

2 Responses to "Teknik SEO Robots.txt"

  1. Bernier 29 November 2009 pada 03:19 am #

    Hi there,
    markbeljaars.com untuk GoogleReader!
    Terima kasih
    Bernier


Trackbacks / Pingbacks.

  1. Robots.txt Teknik SEO - MarkBeljaars.com Air WP - 17. November 2009

    [...] Lihat posting asli: Robots.txt Teknik SEO - MarkBeljaars.com [...]

Tinggalkan Balasan


SpinChimp Leaderboard 728x90