Robots.txt আসলে কি? ওয়েবসাইট বা ব্লগের এসইওর জন্য কিভাবে জরুরী
আজকের আয়োজনে আমি আলোচনা করব robots.txt ফাইল সম্পর্কে। সেই সাথে আমরা জানবো যে একটি ওয়েবসাইট বা ব্লগের জন্য এই robots.txt কতটুকু জরুরী এবং কীভাবে এটি একটি ওয়েবসাইটের এসইও কে প্রভাবিত করে।

এসইও করার সবথেকে সহজ এবং জটিল অংশ হচ্ছে robots.txt। একে সব থেকে সহজ এবং একই সাথে জটিল বলার অন্যতম কারণ হচ্ছে এই ফাইলটি তৈরি করা যেমন সহজ তেমনি সামান্যতম ভুলেই আপনার সম্পূর্ণ এসইও তে গোলমাল বেঁধে যেতে পারে। আজকের আয়োজনে আমি আলোচনা করব robots.txt ফাইল কি এবং কিভাবে এটি এসইওর জন্য জরুরী সেই সম্পর্কে।
Robots.txt বলতে কী বোঝায়?
robots.txt ফাইল হচ্ছে এক ধরনের দিকনির্দেশনা যার মাধ্যমে আপনি সার্চ ইঞ্জিনকে নির্দেশ করতে পারেন সে কোথায় প্রবেশ করতে পারে এবং কোথায় পাবে না। অর্থাৎ আপনি যদি আপনার ওয়েব সাইটের সকল কনটেন্ট সম্পর্কে সার্চ ইঞ্জিনকে জানাতে না চান তাহলে robots.txt ব্যবহার করে সে গুলোকে সার্চ ইঞ্জিন থেকে আলাদা করে রাখতে পারেন। এর ফলে সার্চ ইঞ্জিনগুলো ঐসকল ফাইলের অ্যাক্সেস পায়না। robots.txt ফাইল এর দিক নির্দেশনা অনুযায়ী সার্চ ইঞ্জিনগুলো ক্রল করতে পারেনা।
তবে এখানে লক্ষণীয় বিষয় হচ্ছে সকল ধরনের সার্চ ইঞ্জিন এই নির্দেশনা মানতে পারে। অর্থাৎ এমন অনেক সার্চ ইঞ্জিন রয়েছে যা robots.txt করা অননুমোদিত ফাইলগুলোতে ও প্রবেশ করে। তবে গুগল তা করেনা। robots.txt ফাইল এর সিনটেক্স অনেক সোজা। একটি robots.txt ফাইল সাধারণত এমন হয়ে থাকে
sitemap: [ url sitemaps]
user agennt: [ bot identified ][derective 1][derective 2]
যারা কখনও এ ধরনের robots.txt দেখেননি তাদের জন্য বুঝতে কিছুটা অসুবিধা হবে। এখানে সাইটম্যাপ হচ্ছে ওই সকল দিকনির্দেশনা যার মাধ্যমে আপনি একটি সার্চ ইঞ্জিনকে আপনার ওয়েবসাইটের তথ্য দেওয়ার মাধ্যমে সার্চ ইঞ্জিনকে crowl করতে বলেন। ডিরেক্টিভস গুলোর অর্থ হচ্ছে দিকনির্দেশনা। এখানে আপনি যে বিষয় গুলো দেবেন সার্চ ইঞ্জিন সেই তথ্য ফলো করবে। আর user-agent হচ্ছে এক একটি সার্চ ইঞ্জিন। যেমন
Google: googlebot
Google image: Google image bot
bing: bingbot
yahoo: slurp ইত্যাদি।
আপনি robots.txt ব্যবহার করে ভিন্ন ভিন্ন user-agent গুলোর জন্য ভিন্ন ভিন্ন derective সেট করতে পারেন।
কিভাবে ব্যবহার করবেন robots.txt?
আপনি আপনার ওয়েবসাইটের robots.txt ফাইল হিসেব সার্চ ইঞ্জিনকে তথ্য প্রদানে তারকা চিহ্ন উইল্ডকার্ড ব্যবহার করতে পারেন। যদি আপনি আপনার ওয়েবসাইটে শুধুমাত্র গুগল ব্যতীত অন্যান্য সকল সার্চ ইঞ্জিনকে অ্যাক্সিস দিতে না চান তবে নিচের পদ্ধতি অনুযায়ী আপনার robots.txt ফাইল তৈরী করে নিতে পারেন।
user agent:[*disallow ]
user agent: [Google allow.]
আপনি এ ধরনের ডিরেক্টিভ সেট করে বিভিন্ন user-agent গুলোকে আপনার ওয়েবসাইটে প্রবেশ করা থেকে বিরত রাখতে পারেন। তবে এখানে সমস্যা তখনই দেখা যায় যখন আপনি একই ধরনের user-agent এর জন্য একাধিক ডিরেক্টিভস সেট করেন। এই disallow derective ব্যবহার করে আপনি একটি সার্চ ইঞ্জিনকে আপনার অন্যান্য কন্টেন্টে প্রবেশ করা থেকেও বিরত রাখতে পারেন। এক্ষেত্রে আপনার দিকনির্দেশনা টি হবে
user agent: [*disallow:/ love blog]
তবে আপনি কোন সার্চ ইঞ্জিনকে এ ধরনের দিকনির্দেশনা প্রদান এরপরে যদি সঠিকভাবে পথ-নির্দেশ না করতে পারেন তবে সে ক্ষেত্রে কিছুটা ঝামেলার তৈরি হয়। এই একই রকম কাজটি আপনি allow derective এর ক্ষেত্র তৈরি করে নিতে পারেন। কিন্তু এখন মনে করুন যে আপনি একটি ওয়েবসাইটের একটি মাত্র কনটেন্ট ব্যতীত অন্যান্য সকল কন্টাক্ট এ সার্চ ইঞ্জিনের প্রবেশ সীমিত করতে চান সেক্ষেত্রে আপনাকে নিম্নের robots.txt টি ব্যবহার করতে হবে।
user agent: [* disallow:/blog/allow:/blog/ allowed- post]
এক্ষেত্রে সার্চ ইঞ্জিনগুলো allow পোস্টগুলোর ক্ষেত্রে এক্সেস পাবে। গুগল এবং বিং দুটি সার্চ ইঞ্জিনে এ ধরনের robots.txt ফাইল সাপোর্ট করে। কিন্তু disallow এর মত আপনি যদি এখানে সঠিকভাবে পথ নির্দেশনা দিতে না পারেন তবে সার্চ ইঞ্জিনগুলো পুনরায় ঝামেলা পাকিয়ে ফেলবে। robots.txt ফাইল নির্মাণে একটু সতর্ক না হলেই এই উভয় ডিরেক্টিভ গুলো একে অপরের সাথে conflict করতে পারে। গুগল এবং বিং এই ক্ষেত্রে উভয়েই চেয়ে ডিরেক্টিভ এ ক্যারেক্টার বেশি থাকে সেটাকে মেনে চলবেন। আর অন্যান্য সার্চ ইঞ্জিনগুলো যে নির্দেশনা প্রথমে দেওয়া হয় সে গুলোকে মেনে চলে।
Robots.txt ও SEO
SEO একটি গুরুত্বপূর্ণ অংশ হচ্ছে robot.txt। কারণ এর মাধ্যমে সার্চ ইঞ্জিন গুলোতে কন্ট্রোল স্থাপন করা যায়। আপনি আপনার কোন কন্টেন্ট। এ সার্চ ইঞ্জিনে দেখাতে যাচ্ছেন কোনটি চাচ্ছেন না সেটি নির্দেশ করা যায়। আপনার ওয়েবসাইটের যদি কোন ধরনের ভুল ত্রুটি সংশোধনের কনটেন্ট থেকে থাকে তবে সেটি ও সার্চ ইঞ্জিন থেকে লুকিয়ে রাখা যায়। এছাড়া সার্চ ইঞ্জিনকে আপনার নিজের নির্দেশনা অনুযায়ী চালনা করা যায় বিধায় এটি সহজে আপনার ওয়েবসাইট কে অন্যান্য সার্চ ইঞ্জিনের কাছে পরিচিত করানো যায়। robot.txt ফাইল অনেক সহজ। কিন্তু এতে জটিলতা পাকিয়ে ফেলার সম্ভাবনা অনেক বেশি থাকে।
তাই একজন দক্ষ এসইও এক্সপার্ট এর কাছেও এটি বেশ জটিল। robot.txt ফাইল তৈরি করতে হয় বেশ সতর্কতার সাথে। তা না হলে দেখা যাবে যে আপনি আপনার ওয়েবসাইটটি নিয়ে সার্চ ইঞ্জিনে ঠিক যতটুকু প্রত্যাশা করেছিলেন সেই অনুযায়ী ফলাফল পাওয়া যাবে না। কারণ এমন হওয়া ব্যতিক্রম নয় যে সার্চ ইঞ্জিনগুলো আপনার বিভিন্ন robots.txt করা ফাইল গুলোর এক্সিসি পাচ্ছে না। আবার যে সকল ফাইলগুলোতে এক্সেস পাচ্ছিস এই সকল ফাইলগুলো আপনি প্রদর্শন করতে চাচ্ছেন না। তাই আপনার ওয়েবসাইটের এসইও এর জন্য robots.txt ফাইল সঠিকভাবে তৈরি করা একটি গুরুত্বপূর্ণ বিষয়।
যে robots.txt গুগল সাপোর্ট করেনা
এমন কিছু কিছু ডিরেক্টিভ রয়েছে যা সার্চ ইঞ্জিনগুলো সাপোর্ট করে না বিশেষ করে গুগল। তাহলে চলুন জেনে নেই এই সকল ডিরেক্টিভ সম্পর্কে।
Crawl delay
আগে আপনি এই ধরনের derective ব্যবহার করে সার্চ ইঞ্জিন কে crawl করার সময় তিনি নির্দিষ্ট করে দিতে পারতেন। অর্থাৎ আপনি robots.txt ব্যবহার করে আপনার ক্রলিংয়ের সময় কে কয়েক সেকেন্ড বা মিনিটের জন্য ডিলে করতে পারতেন। কিন্তু বর্তমানে এই ফাইলটি আর সাপোর্ট করে না।
Noindex
এটিও আরেকটি আনসাপোর্টেড robots.txt । যদিও এটি অনেক আগে থেকেই গুগল সাপোর্ট করেনা। কিন্তু 2019 সালের ভূগোল অফিশিয়ালি জানিয়েছে যে এ ধরনের কোনো ডিরেক্টিভ গুগল সাপোর্ট করবে না।
Nofollow
এই ডিরেক্টিভস ইউ গুগল সাপোর্ট করেনা। অর্থাৎ আপনি আপনার ওয়েবসাইটের অভ্যন্তরে এমন কোন লিংক নোফলো অবস্থায় রাখতে পারবেন না।
আপনার কি robots.txt ফাইল এর প্রয়োজন আছে?
এখন প্রশ্ন হচ্ছে সকল ধরনের ওয়েবসাইট এর জন্যই robots.txt ফাইলে প্রয়োজন রয়েছে কিনা। বস্তুত আপনার ওয়েবসাইটটি যদি অনেক ছোট হয়ে থাকে তবে এর প্রয়োজন নেই। সাধারণত বড় বড় ওয়েবসাইটগুলো ম্যানেজ করার জন্য robots.txt ফাইল ব্যবহার করা হয়ে থাকে। কিন্তু তারপরও আপনি যদি এটি ব্যবহার করতে চান তাহলে কোন অসুবিধা নাই। বরং এর মাধ্যমে আপনি সার্চ ইঞ্জিন এর উপর আপনার নিজস্ব কন্ট্রোল স্থাপন করতে পারবেন। তবে এক্ষেত্রে অবশ্যই লক্ষ্য রাখবেন যে আপনার দিক নির্দেশনা গুলো সাজানো সঠিক হয়। কারণ পূর্বেই বলেছি যে robots.txt ফাইলে সামান্যতম ভুল আপনার এসইওর বারোটা বাজিয়ে দিতে পারে।