17 नवंबर 2009 2 टिप्पणियाँ

Robots.txt एसईओ तकनीक

http://markbeljaars.com/wp-content/plugins/sociofluid/images/digg_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/reddit_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/stumbleupon_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/delicious_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/furl_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/technorati_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/facebook_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/yahoobuzz_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/mixx_48.png http://markbeljaars.com/wp-content/plugins/sociofluid/images/twitter_48.png

इस पोस्ट में एक लंबा है, लेकिन महत्वपूर्ण एक है. मैं सुझाव है कि आप अपने शुरू होने से पहले गर्म चॉकलेट की एक कप ले लो :)

यदि आप robots.txt फ़ाइल के बारे में नहीं सुना है, यह सिर्फ एक छोटे से अपनी वेबसाइट के रूट निर्देशिका है कि वे क्या करते हैं और नहीं कर सकते हैं पर खोज इंजन के निर्देश में स्थित फ़ाइल है. हालांकि सख्ती से लागू नहीं है, खोज इंजन bots आम तौर पर आगे robots.txt फ़ाइल में निर्धारित नियमों का सम्मान करेंगे. एक ठीक से कॉन्फ़िगर robots.txt फ़ाइल के साथ तुम, उदाहरण के लिए, स्पैम bots से रोकना करने का प्रयास कर सकते हैं, गूगल बता या बॉट हिदायत पृष्ठों है कि डुप्लिकेट सामग्री को शामिल कर सकते हैं छोड़ नहीं सूचकांक करने के लिए आपकी छवियों.

Bots इंटरनेट क्रॉल करने के लिए नए या संशोधित सामग्री खोजने के लिए खोज इंजन कंपनियों, spammers और सामग्री accumulators द्वारा इस्तेमाल किया सॉफ्टवेयर के टुकड़े कर रहे हैं. एक bot की नौकरी के लिए एक पृष्ठ से पृष्ठ और साइट के लिए साइट के लिए रेंगने वेबसाइट पर लिंक का अनुसरण करें. यह केविन बेकन बात के छह डिग्री की तरह है. पर्याप्त लिंक का पालन करें और आप अंततः नेट पर सभी सामग्री का पता लगाना चाहिए. यही कारण है कि पश्च बहुत महत्वपूर्ण हैं. अधिक backlinks आप है, यह आसान खोज इंजन के लिए अपनी सामग्री को खोजने के. वहाँ का शाब्दिक बॉट किसी एक समय में शुद्ध trawling उदाहरणों के लाखों रहे हैं. एक bot के लिए सरकारी शब्द एक उपयोगकर्ता एजेंट जिनमें से वहाँ हजारों हैं है . चलो उदाहरण के लिए Google ले. गूगल अपनी साइट सूचकांक करने के लिए इस्तेमाल किया कई अलग अलग उपयोगकर्ता एजेंट है, चित्र और वीडियो निकालने, समाचार फ़ीड मिल, सामग्री खोजने के मोबाइल फोन, ऐडसेंस और इतने पर गुणवत्ता के लिए अपनी साइट की जाँच करें. यह साइट ज्ञात उपयोगकर्ता एजेंट की एक पूरी सूची के विवरण .

robots.txt फ़ाइल के आसपास उम्र के लिए किया गया है. यह वास्तव में था द्वारा शुरू की AltaVista 1994 में, लेकिन अब वेब मकड़ियों के लिए एक प्रधान भोजन बनी हुई है. फ़ाइल और उसके मानक संकेतन का एक पूर्ण विवरण के लिए, यहाँ जाएँ . संक्षेप में, अपने पूरे साइट या उसके किसी भाग रेंगने से एक robots.txt फ़ाइल विशिष्ट बोट्स प्रतिबंधित कर सकते हैं. ऐसा करने के लिए, सभी बोट्स का एक विशेष हस्ताक्षर है. उदाहरण के लिए, गूगल के सूचकांक बॉट Googlebot को कहा जाता है, बिंग बॉट MSNbot कहा जाता है, और याहू बॉट याहू Slurp कहा जाता है.

Robots.txt फ़ाइल में एक प्रविष्टि इस तरह लग सकता है:

User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html

यहाँ हम कह रहे हैं Slurp उपयोगकर्ता एजेंट है कि यह किसी भी "सार्वजनिक" के साथ शुरू निर्देशिका में स्थित सभी पृष्ठों का उपयोग कर सकते हैं, और यूआरआइ _print "में" के साथ पृष्ठों के लिए उपयोग नहीं है.

नीचे मेरे प्रयोगात्मक WordPress साइटों (मैं एक समझा कि मैं क्या एक और दिन प्रयोगात्मक साइट से मतलब लेख पोस्ट करेंगे) के लिए एक पूरा robots.txt फ़ाइल है . चतुर पाठकों नोट हो सकता है कि मैं विशिष्ट निर्देशिका से सभी उपयोगकर्ता एजेंट को अनुमति न देने हूँ, और केवल कुछ विशिष्ट उपयोगकर्ता एजेंटों मेरी साइट के शेष क्षेत्रों के लिए उपयोग की अनुमति है. मानक के लिए एक हाल ही में अद्यतन भी मुझे मेरी साइट मानचित्र के स्थान खोज इंजन मेरे सभी पृष्ठों की खोज करने में मदद के लिए सूची करने के लिए अनुमति देता है.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /search/*/feed
Disallow: /search/*/*

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Image
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://beginnerchess.org/sitemap.xml

उपभोग के लिए इरादा नहीं है सामग्री तक पहुँचने से बोट्स को अनुमति न देने कि आपकी साइट के सभी पृष्ठों पर अनुकूलित खोजशब्द रहेगा सुनिश्चित करने के लिए, इस प्रकार की मदद से खोज इंजन रैंकिंग के भीतर अपनी साइट को बढ़ावा देने करेंगे. तुम कठिन कीवर्ड "वजन" और विभिन्न लंबे पूंछ के लिए सभी पृष्ठों के अनुकूलन पर काम किया है उदाहरण के लिए कहो. आपका काम खोज इंजन की आँखों में नीचे फ़िल्टर्ड किया जा सकता है अगर यह अपने प्रवेश पृष्ठ, पृष्ठ गोपनीयता और संपर्क फ़ॉर्म क्रॉल करने में सक्षम था.

कुछ एसईओ विशेषज्ञों का यह भी तर्क है कि गूगल पुराने अधिक की स्थापना की साइटों के पक्ष में युवा वेबसाइटों सज़ा. गूगल जाहिरा तौर पर इंटरनेट पुरालेख (पाया का उपयोग करता है यहाँ) एक साइट की उम्र निर्धारित करने के लिए. यदि यह साइट संग्रह में नहीं मिल सकता है, यह जाहिरा तौर पर मान लिया गया है साइट पर एक निश्चित उम्र है. इस कारण से, कई लोगों को सक्रिय रूप से अपनी साइट के अनुक्रमण से इंटरनेट उपयोगकर्ता - एजेंट पुरालेख बंद करो. यह निम्नलिखित लाइनों सहित द्वारा किया जा सकता है:

User-agent: ia_archiver-web.archive.org
Disallow: /

आप से भी छवि बॉट रोक अगर वे अन्य साइटों से गैर स्टॉक छवियों उधार लिया है अपने चित्रों तक पहुँचने के लिए चाहते हो सकता है. यह बहुत पसंद किया जा सकता है है:

User-agent: Googlebot-Image
Allow: /

अंत में, robots.txt बॉट के लिए विशिष्ट पृष्ठों है कि सामग्री है कि अन्य साइटों या पेजों पर उपलब्ध हो सकती है प्रदर्शित करने के लिए इस्तेमाल किया जा सकता है से बाहर करने के लिए इस्तेमाल किया जा सकता है. अक्सर यह तर्क दिया है कि गूगल डुप्लिकेट सामग्री प्रदर्शित करने के लिए अपने रेटिंग्स सज़ा देगा. मैं व्यक्तिगत रूप से इस एक बड़े मुद्दे के रूप में नहीं देखते हैं और विश्वास है कि डुप्लिकेट सामग्री वास्तव में कुछ उदाहरणों में आपकी साइट दर्ज़ा (इस बारे में और अधिक एक और दिन) की मदद कर सकते हैं. वैसे भी, एक bot एक विशेष पृष्ठ तक पहुँचने से रोक निम्नलिखित लाइनें जोड़ने:

User-agent: *
Disallow: */my-duplicate-page.html

ध्यान दें कि यह एक मूर्ख सबूत विधि नहीं है. यदि आपके अनुमति नहीं पृष्ठ एक अन्य साइट से यह लिंक है, यह अभी भी बॉट द्वारा क्रॉल जाएगा.

मैं जा रहा रखने के सकता है, लेकिन मुझे यकीन है कि तुम सब अब तक बोर हो रहे हैं रहा हूँ. नीचे टिप्पणी करने के लिए या मुझे सीधे संपर्क करें यदि आप और अधिक जानना चाहते करने के लिए बेझिझक.

हैप्पी roboting.

संबंधित पोस्ट

2 जवाब "Robots.txt एसईओ तकनीकों"

  1. बर्नियर 29 2009 03:19 पर हूँ नवम्बर #

    हाय वहाँ है,
    GoogleReader करने के लिए markbeljaars.com!
    धन्यवाद
    बर्नियर


/ Trackbacks Pingbacks.

  1. MarkBeljaars.com WP एयर Robots.txt एसईओ तकनीकों - 17. नवम्बर, 2009

    [...] मूल पोस्ट देखें: Robots.txt एसईओ तकनीकों - MarkBeljaars.com [...]

एक उत्तर दें छोड़ दो

आवश्यकता


SpinChimp Leaderboard 728x90