December 9 năm 2009 6 Comments

iRobots.txt SEO

http://markbeljaars.com/wp-content/plugins/sociofluid/images/digg_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/reddit_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/stumbleupon_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/delicious_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/furl_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/technorati_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/facebook_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/yahoobuzz_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/mixx_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/twitter_48.png~~V
iRobots.txt SEO

Chỉ cần một lưu ý nhanh chóng để cho bạn biết rằng tôi đã phát hành các plugin mới nhất của tôi được gọi là iRobots.txt SEO.

iRobots.txt SEO là tối ưu hóa SEO, an toàn và tập tin robots.txt ảo tùy biến người sáng tạo.

Chi tiết đầy đủ của plugin này có thể được tìm thấy tại http://markbeljaars.com/plugins/irobotstxt-seo/ .

Plugin này bắt đầu cuộc sống như là một nhu cầu ích kỷ để tạo ra một cách dễ dàng-of-the-box SEO tối ưu hóa các tập tin robots.txt cho các trang web của tôi. Kể từ khi thụ thai ban đầu, tôi đã thêm tính năng để ngăn chặn các chương trình cụ thể và tạo ra các hồ sơ tùy chỉnh. Không có plugin robots.txt khác cung cấp mức độ linh hoạt.

Tôi cũng đã dành rất nhiều thời gian phát triển một giao diện thiết lập tiêu chuẩn hóa. Trang thiết lập giống như một tiêu chuẩn WordPress trang Chỉnh sửa mới với phần mở rộng và thu vào. Ý kiến ​​về giao diện sẽ được đánh giá là tôi đang lên kế hoạch trên Bảng Retrofitting Nội dung Đấng Tạo Hóa với phong cách mới này.

Dù sao, tôi đã blabbered đủ. Xin vui lòng cung cấp cho các plug-in một thử và cho tôi biết những gì bạn nghĩ.

Ngày 17 tháng 11 năm 2009 2 Comments

Robots.txt Kỹ thuật SEO

http://markbeljaars.com/wp-content/plugins/sociofluid/images/digg_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/reddit_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/stumbleupon_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/delicious_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/furl_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/technorati_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/facebook_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/yahoobuzz_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/mixx_48.png~~V http://markbeljaars.com/wp-content/plugins/sociofluid/images/twitter_48.png~~V

Bài đăng này là một trong những lâu dài nhưng quan trọng. Tôi khuyên bạn nên lấy một cốc sô-cô-la nóng trước khi bắt đầu của bạn :)

Nếu bạn đã không nghe nói về các tập tin robots.txt, nó chỉ đơn giản là một tập tin nhỏ nằm trong thư mục gốc trang web của bạn có chỉ thị các công cụ tìm kiếm trên những gì họ có thể và không thể làm được. Mặc dù không nghiêm chỉnh thi hành, chương trình công cụ tìm kiếm nói chung sẽ tôn trọng các quy tắc thiết lập trong file robots.txt. Với một tập tin robots.txt cấu hình đúng, bạn có thể, ví dụ, cố gắng để tự bảo vệ khỏi chương trình thư rác, nói với google không phải là chỉ số hình ảnh của bạn hoặc hướng dẫn chương trình để bỏ qua các trang có thể chứa nội dung trùng lặp.

Chương trình là các phần của phần mềm được sử dụng bởi các công ty công cụ tìm kiếm, kẻ gửi thư rác và ắc nội dung để thu thập dữ liệu internet để tìm nội dung mới hoặc sửa đổi. Một công việc của bot là theo liên kết trên một trang web thu thập dữ liệu từ trang này sang trang và trang web để trang web. Đó là loại giống như một Six Degrees của Kevin Bacon điều. Theo các liên kết đủ và cuối cùng bạn sẽ tìm thấy tất cả các nội dung trên mạng. Đây là lý do tại sao backlinks là rất quan trọng. Các backlinks hơn bạn có, nó dễ dàng hơn cho công cụ tìm kiếm để tìm nội dung của bạn. Có nghĩa là hàng triệu các trường hợp bot trawling net tại bất kỳ một thời gian. Thời hạn chính thức cho bot là một người sử dụng đại lý trong đó có hàng ngàn. Cho phép Google cho ví dụ. Google có nhiều người sử dụng các đại lý được sử dụng để chỉ mục trang web của bạn, trích xuất hình ảnh và video, tìm thấy nguồn cấp dữ liệu tin tức, tìm kiếm nội dung điện thoại di động, hãy kiểm tra trang web của bạn cho Adsense chất lượng và như vậy. Trang web này chi tiết một danh sách đầy đủ biết người sử dụng đại lý.

Các tập tin robots.txt đã được xung quanh cho các lứa tuổi. Nó thực sự đã được giới thiệu bởi AltaVista vào năm 1994, nhưng bây giờ vẫn còn là một thực phẩm chủ yếu cho nhện web. Đối với một mô tả đầy đủ của tập tin và ký hiệu tiêu chuẩn của nó, hãy truy cập vào đây . Trong ngắn hạn, một tập tin robots.txt có thể hạn chế các chương trình cụ thể thu thập dữ liệu toàn bộ trang web của bạn hoặc một phần của chúng. Để làm điều này, tất cả các chương trình có một chữ ký đặc biệt. Ví dụ, bot chỉ mục của Google được gọi là Googlebot, bot của Bing được gọi là MSNbot, và bot của Yahoo được gọi là Yahoo! Slurp.

Một mục trong file Robots.txt có thể trông như thế này:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html

Ở đây chúng tôi đang nói với đại diện người sử dụng Slurp rằng nó có thể truy cập tất cả các trang nằm trong bất kỳ thư mục bắt đầu với "công chúng", và không có quyền truy cập vào các trang web với "_print" trong URI.

Dưới đây là một file robots.txt hoàn chỉnh cho một trong các trang web WordPress thử nghiệm của tôi (tôi sẽ đăng một bài viết giải thích những gì tôi có nghĩa là trang web thử nghiệm một ngày khác). Các độc giả sắc sảo có thể lưu ý rằng tôi không cho phép tất cả các đại lý người dùng từ thư mục cụ thể, và chỉ cho phép một số đại lý người sử dụng cụ thể truy cập vào những khu vực còn lại của trang web của tôi. Cập nhật gần đây tiêu chuẩn cũng cho phép tôi vào danh sách các vị trí của bản đồ trang web của tôi để giúp công cụ tìm kiếm tìm thấy tất cả các trang của tôi.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://beginnerchess.org/sitemap.xml

Không chấp nhận cho chương trình từ truy cập nội dung không dành cho tiêu dùng sẽ đảm bảo rằng trang web của bạn sẽ vẫn từ khóa tối ưu hóa trên tất cả các trang, do đó giúp quảng bá trang web của bạn trong bảng xếp hạng công cụ tìm kiếm. Nói ví dụ bạn đã làm việc chăm chỉ tối ưu hóa tất cả các trang "tăng cân" từ khoá và đuôi dài khác nhau. Công việc của bạn có thể được chọn lọc trong mắt của các công cụ tìm kiếm nếu nó đã có thể thu thập dữ liệu trang đăng nhập của bạn, trang bảo mật thông tin và hình thức liên lạc.

Một số chuyên gia SEO cũng lập luận rằng Google trừng phạt các trang web trẻ ủng hộ trở lên các trang web nhiều hơn thành lập. Google dường như sử dụng Internet Archive (tìm thấy ở đây ) để xác định tuổi của một trang web. Nếu nó không thể tìm thấy các trang web trong kho lưu trữ, nó dường như giả định là một độ tuổi nhất định. Vì lý do này, nhiều người tích cực ngăn chặn người sử dụng Internet Archive-agent từ lập chỉ mục trang web của họ. Điều này có thể được thực hiện bằng cách bao gồm các dòng sau:

User-agent: ia_archiver-web.archive.org
Disallow: /

Bạn có thể muốn ngăn chặn các chương trình hình ảnh từ truy cập hình ảnh của bạn nếu họ đã vay mượn hình ảnh không cổ phần từ các trang web khác. Điều này có thể được thực hiện như vậy:

User-agent: Googlebot-Image
Allow: /

Cuối cùng, robots.txt có thể được sử dụng để loại trừ các chương trình từ các trang cụ thể mà có thể được sử dụng để hiển thị nội dung có thể có sẵn trên các trang web hoặc các trang khác. Người ta thường cho rằng Google sẽ trừng phạt xếp hạng của bạn để hiển thị nội dung trùng lặp. Cá nhân tôi không thấy điều này như là một vấn đề lớn và tin tưởng rằng nội dung trùng lặp thực sự có thể giúp đánh giá trang web của bạn trong một số trường hợp (thêm về điều này một ngày khác). Dù sao, để ngăn chặn một bot truy cập vào một trang cụ thể, thêm những dòng sau đây:

User-agent: *
Disallow: */my-duplicate-page.html

Lưu ý rằng đây không phải là một phương pháp fool-proof. Nếu trang không được phép của bạn có liên kết đến từ một trang web khác, nó vẫn sẽ được thu thập thông tin của chương trình.

Tôi có thể tiếp tục đi, nhưng tôi chắc chắn rằng bạn đang chán bây giờ. Hãy nhận xét dưới đây hoặc liên hệ với tôi trực tiếp nếu bạn muốn biết thêm.

Happy roboting.


SpinChimp Leaderboard 728x90