robots.txt फ़ाइल लिखने के लिए एक त्वरित मार्गदर्शिका

आप एक विशाल पाठ्यपुस्तक से कैसे परामर्श लेते हैं? सूचकांक के माध्यम से छान-बीन करना। खैर: एक तत्व है जो आपकी वेबसाइट का वास्तविक सारांश है...

रोबोट्स.txt: प्रोग्रामिंग कोड अधिक से अधिक परिष्कृत होने के लिए बाध्य हैं
प्रोग्रामिंग कोड और भी अधिक परिष्कृत बनने के लिए तैयार हैं

सर्च इंजन स्पाइडर से संपर्क करने का एकमात्र तरीका, या क्रॉलर, नामक फ़ाइल के माध्यम से है Robots.txt. या बेहतर। जब आप अपनी वेबसाइट का प्रस्ताव Google को सबमिट करते हैं, तो उसे बहुत बड़ी मात्रा में जानकारी का सामना करना पड़ता है।

आप इतनी बड़ी पाठ्यपुस्तक कैसे देखते हैं कि आपको ऐसा लगता है कि आपको वह सब कुछ कभी नहीं मिलेगा जिसकी आपको ज़रूरत है? आप परामर्श करें अनुक्रमणिका. ख़ैर: robots.txt फ़ाइल आपकी वेबसाइट का सूचकांक है।

यह भरने में आसान दस्तावेज़ है जो खोज इंजन क्रॉलर को बताता है कि क्या देखना है। संक्षेप में: आप उसे यह समझने में मदद करेंगे कि आपकी साइट किस चीज़ से बनी है, ताकि एल्गोरिदम आपको एक रैंकिंग दे सके जो आपके द्वारा किए गए काम के लिए उपयुक्त हो।

क्या कोई robots.txt फ़ाइल लिख सकता है?

छोटा जवाब हां है। ईमानदार उत्तर है नहीं. हालाँकि robots.txt फ़ाइल का व्याकरण बेहद सरल है, और इसकी संरचना में कुछ पंक्तियाँ होती हैं, किसी विशेषज्ञ वेबमास्टर की देखभाल पर भरोसा करना बेहतर है जो जानता है कि उसे कहाँ हाथ लगाना है। आख़िरकार, एक छोटी सी गलती आपकी वेबसाइट की स्थिति से समझौता करने के लिए पर्याप्त है, और इसलिए सभी एसईओ ऑपरेशन शुरू होने से पहले ही रुक जाते हैं।

शुरू करने से पहले एक बात जान लें: कोई भी व्यक्ति डोमेन के बाद /robots.txt लिखकर किसी भी साइट की robots.txt फ़ाइल देख सकता है. आप Google से भी परामर्श ले सकते हैं!

आप विशेष सॉफ़्टवेयर डाउनलोड किए बिना ऐसी फ़ाइल लिख सकते हैं। वास्तव में, यह आपके नोटपैड का उपयोग करने और, अनुमान लगाएं, .txt प्रारूप में सहेजने के लिए पर्याप्त है।

आइए मिलकर एक robots.txt लिखें: हेडर

आइए शुरुआत से शुरू करें, क्योंकि ऐसा करना हमेशा तर्कसंगत होता है। फ़ाइल का उद्घाटन, या बल्कि हेडर, पूरी तरह से स्पाइडर के नाम को समर्पित है, जिसके पहले एक छोटा सा शब्द होता है जो हमेशा समान होता है। आइए मान लें कि आप Google की नज़र में आना चाहते हैं। तो पहली पंक्ति होगी:

उपयोगकर्ता-एजेंट: Googlebot

यह बहुत छोटी स्ट्रिंग Google को बताती है कि आगे आने वाली हर चीज़ निश्चित रूप से उसके लिए रुचिकर होगी। यदि आप चाहते हैं कि इस प्रकार की फ़ाइल पढ़ने वाले सभी क्रॉलर दस्तावेज़ से परामर्श कर सकें, तो सरल * के स्थान पर Googlebot का उपयोग करें, a asterisco.

अब जब आपने यह बता दिया है कि कौन सी मकड़ी है, यानी WHO, तो आपको यह बताना होगा यह भी कि उसे क्या पढ़ना होगा.

परिभाषा के अनुसार, कोड की प्रत्येक पंक्ति मशीन की एक क्रिया से मेल खाती है। यह कहने की आवश्यकता नहीं है कि robots.txt फ़ाइल में प्रत्येक कमांड उस चीज़ से मेल खाती है जो मशीन को नहीं करनी चाहिए। और यही वह कुंजी है जो आपको वास्तव में प्रभावी लिखने की अनुमति देती है। हम बात कर रहे हैं DISALOW कमांड की.

अस्वीकृत आदेश क्या है?

Il आदेश को अस्वीकार करें आपको बहिष्करण द्वारा तर्क करने की अनुमति देता है। दूसरे शब्दों में, जब यह कहा जाता है कि सबसे पहले यह कहना है कि क्या नहीं किया जाना चाहिए - ठीक है, आप बहिष्करण द्वारा तर्क कर रहे हैं। अस्वीकृत के अलावा अनुमति भी है, जो ब्लॉक का अपवाद है।

यदि आप एक अच्छी रोबोट फ़ाइल लिखना चाहते हैं, तो आपको दूसरे तरीके से सोचना होगा, इसलिए आपको Google को बताना होगा कि उसे क्या नहीं पढ़ना चाहिए। यदि आप लिखते हैं:

अस्वीकार:

स्पाइडर आपकी पूरी साइट को बिना किसी ब्रेक के पढ़ेगा।

यदि "अस्वीकृत करें:" के बाद आप एक स्लैश डालते हैं (इसलिए अस्वीकृत करें: /), तो साइट खोज इंजन में दर्ज नहीं की जाएगी, पूर्ण विराम।

अस्वीकृत: /निर्देशिका/

शब्द निर्देशिका को उस फ़ोल्डर से बदलें जिसे आप स्पाइडर व्यू से अस्वीकृत करना चाहते हैं। आप किसी विशिष्ट फ़ाइल के साथ भी ऐसा ही कर सकते हैं.

अस्वीकृत करें: /myfile.html

पर ध्यान विराम चिह्न और अक्षर, अपरकेस या लोअरकेस। इस प्रकार की फ़ाइल इस प्रकार की "छोटी चीज़ों" को बहुत सम्मान देती है, लेकिन वे एक बड़ा अंतर लाती हैं।

आप Google को अपनी साइट का एक बड़ा हिस्सा पढ़ने से क्यों रोकेंगे? जब आप इस प्रकार की फ़ाइल लिखते हैं, तो यह समझना महत्वपूर्ण है कि कौन सी फ़ाइलें खोज इंजन पर नहीं दिखनी चाहिए, लेकिन उनका दुरुपयोग किए बिना। हालाँकि, यह जान लें कि जो कोई भी उस विशेष फ़ाइल का सटीक पता जानता है, वह किसी भी स्थिति में उस तक पहुँच सकेगा।

ALLOW कमांड क्या है?

फ़ाइल में आप कमांड के साथ एक अपवाद जोड़ सकते हैं अनुमति. व्याकरण समान है, लेकिन यह DISALLOW में कुछ अपवाद बनाएगा जो मकड़ी के लिए अन्वेषण के दिलचस्प मार्जिन खोलने की अनुमति देगा।

एक छोटा सा नमूना फ़ाइल:

उपयोगकर्ता-एजेंट: Googlebot

अस्वीकृत: /छवियां/

अनुमति दें: /images/holidays.jpg

मूल रूप से हमने Googlebot से कहा था कि वह छवि फ़ोल्डर पर विचार न करें, सिवाय इसके कि उसके अंदर की एक विशेष तस्वीर, अर्थात् छुट्टियों की तस्वीर।

और दोस्तों, यही है। हमने अपनी पहली robots.txt फ़ाइल लिखी। ज़रूर, वास्तविक साइट के लिए हम जो करने जा रहे हैं वह थोड़ा अलग हो सकता है, लेकिन बहुत ज़्यादा नहीं। यदि संदेह हो, तो हमेशा किसी विशेष वेबमास्टर से सलाह लें। हम आपको सलाह देते हैं कि सबसे पहले आप इसे स्वयं लिखने का प्रयास करें, और इसे जांच के लिए उसके पास भेजें, ताकि मूल बातों में महारत हासिल हो सके और बेहतर ढंग से समझ सकें कि आपकी साइट कैसे काम करती है।

robots.txt और साइटमैप के बीच क्या संबंध है?

साइटमैप विशेष प्लगइन्स द्वारा उत्पन्न एक फ़ाइल है जिसमें साइट के सभी लिंक शामिल होते हैं। जब मकड़ी साइट में प्रवेश करती है, तो वह पहले रोबोट को पढ़ती है, फिर साइट को क्रॉल करती है। यदि क्रॉल के दौरान रोबोट को साइटमैप पता मिल जाता है, तो पूरी प्रक्रिया बहुत आसान हो जाएगी।

उपरोक्त कोड में निम्नलिखित जोड़ें:

साइटमैप: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

अंत में

सभी रोबोट फ़ाइलें समान हैं. इसका मतलब यह है कि Google के लिए लिखी गई रोबोट फ़ाइल बिंग के लिए भी ठीक काम करेगी, और उसी व्याकरण का पालन करेगी।

एक सुव्यवस्थित robots.txt फ़ाइल आपको इसकी अनुमति देती है क्रॉलर का समय बचाएं. निराश न हों: यह सफलता की ओर पहला कदम है!

robots.txt: Google इंटरनेट पर सबसे शक्तिशाली खोज इंजन है
गूगल इंटरनेट पर सबसे शक्तिशाली सर्च इंजन है