সার্চ ইঞ্জিন কীভাবে কাজ করে: ক্রলিং, ইন্ডেক্সিং, এবং র‍্যাঙ্কিং

সার্চ ইঞ্জিন কিভাবে কাজ করে?

সার্চ ইঞ্জিন হচ্ছে একটি মেশিন যা আমাদের সকলের ছুঁড়ে দেওয়া প্রশ্নের উত্তর দিয়ে থাকে। সার্চ ইঞ্জিনগুলোর উদ্ভব হয়েছিল আমাদের প্রশ্নগুলো বুঝে সঠিকভাবে উত্তর বের করে আনার উদ্যেশে। 

সার্চ ইঞ্জিন অপটিমাইজেশন সম্পর্কে জানা শুরু করার আগে সার্চ ইঞ্জিন কীভাবে কাজ করে তা নিয়ে আমাদের ধারণা নিয়ে রাখা প্রয়োজন। আমরা অনেকে এসইও শেখা শুরু করলে বেসিক জিনিসগুলো ক্লিয়ার না করে সবসময় পরের ধাপে যাওয়ার চেষ্টা করি৷ এতে করে পরবর্তীসময়ে অনেক বিষয় বুঝতে কষ্ট হয়। 

তাই, আজকের পোস্টে আমরা বর্ণনা করব কীভাবে সার্চ ইঞ্জিন কাজ করে: ক্রলিং, ইন্ডেক্সিং, এবং র‍্যাঙ্কিং নিয়ে৷ চলুন শুরু করা যাক-

সার্চ ইঞ্জিন কীভাবে কাজ করে?

সার্চ ইঞ্জিন সাধারণত এই তিন উপায়ে কাজ করে থাকে-

  • ক্রলিং: প্রত্যেকটি সার্চ ইঞ্জিনের নিজস্ব রোবট রয়েছে৷ এই রোবটগুলোর মাধ্যমে সার্চ ইঞ্জিনগুলো সারা ইন্টারনেট জুড়ে খুঁজে খুঁজে লিংকগুলো বের করে আনে৷
  • ইন্ডেক্সিং: সার্চ ইঞ্জিন রোবটগুলো যেসকল লিংক খুঁজে পায়, সেগুলো সুন্দর করে সাজিয়ে রাখে এবং নিজস্ব সার্ভারে অ্যাড করে নেয়৷ হ্যাঁ, শুধু ইনডেক্স হয়ে গেলে কারও পেইজ র‍্যাংক করে ফেলবে, এমন বোকা সার্চ ইঞ্জিনগুলো না৷ সে তার বুদ্ধিমত্তার সাহায্যে ইউজার যে বিষয়ে সার্চ করছে তার সাথে মিল রেখে রেজাল্ট দেখায়৷ 
  • র‍্যাংকিং: সার্চ ইঞ্জিনগুলো সমগ্র ইন্টারনেট জুড়ে খুঁজে লিংকগুলো বের করার পর সবচেয়ে চ্যালেঞ্জিং বিষয় হচ্ছে ইউজারের করা সার্চ-এর সাথে সামঞ্জস্যপূর্ণ রেজাল্ট সামনে নিয়ে আসা৷ এই কাজটি যে ভালোভাবে করতে পারে, তাকেই আমরা সেরা সার্চ ইঞ্জিন বলে থাকি৷ 

সার্চ ইঞ্জিন ক্রলিং কী?

সার্চ ইঞ্জিন ক্রলিং হলো এমন একটি প্রসেস যার মাধ্যমে অনলাইনে যতগুলো এক্সেসেবল লিংক রয়েছে সেগুলো খুঁজে বের করে আনা৷ এই কাজটি সম্পন্ন করার জন্য প্রতিটি সার্চ ইঞ্জিনের নিজস্ব রোবট রয়েছে৷ 

গুগলের এই রোবটকে বলা হয় গুগলবট৷ তেমনি রয়েছে বিংবট, এসইএমরাশবট, রজারবট (মজ) ইত্যাদি৷ এই বটগুলোর কাজ অনলাইন থেকে সব ধরনের কন্টেন্ট খুঁজে বের করা৷ এই কন্টেন্টগুলো হতে পারে ছবি, ভিডিও, বই, আর্টিকেল, কিংবা পিডিএফ। 

গুগলবটকে অনেক সময় স্পাইডারও বলা হয়ে থাকে। কারণ এটি স্পাইডারের মতো এক পেইজ থেকে আরেক পেইজে ঘুরে বেড়ায় এবং নতুন নতুন লিংক খুঁজে বের করতে সহায়তা করে। গুগলবট এই সকল কন্টেন্ট খুঁজে বের করে ইন্ডেক্স করে ‘ক্যাফেইন’-এ। ক্যাফেইন একটি বিশাল ডেটাবেইজের সম্ভার যেখানে সবগুলো লিংক জমা থাকে।

ক্যাফেইন এসকল লিংক আগে থেকে নিজেদের ডেটাবেইজে রাখার কারণে খুব দ্রুত সময়ে যেকোনো ধরনের রিলিভেন্ট রেজাল্ট সামনে এসে হাজির করতে পারে। 

সার্চ ইন্ডেক্স কী? 

গুগলবট-এর মাধ্যমে প্রাপ্ত সকল লিংক এবং তথ্য নিজেদের সার্ভারে নিয়ে আসতে পারলে সবকিছু আরও সুন্দর করে ফিল্টার করা যায়। সার্চ ইন্ডেক্স মূলত এসকল কারনে করা হয়। যেন রিলিভেন্ট তথ্য সকলের সামনে নিয়ে আসা যায় খুব দ্রুত সময়ে। 

সার্চ র‍্যাঙ্কিং কী?

যেহেতু পূর্বেই বলেছি সার্চ ইঞ্জিনগুলো মূলত তৈরি করা হয়েছিলো সকলের সকল প্রশ্নের উত্তর দেওয়ার জন্য। এখন প্রশ্ন হচ্ছে কেউ একজন কোনো কিছু সার্চ করলে তাকে যেকোন ধরনের উত্তর দিয়ে দিলে হবে? না, ইউজারকে সবসময় সঠিক উত্তরটাই দিতে হবে। সঠিকভাবে এবং সামঞ্জস্যপূর্ণ রেজাল্ট ইউজারের সামনে হাজির করার মাঝেই সার্চ ইঞ্জিনের স্বার্থকতা। 

এখন প্রাসঙ্গিক রেজাল্ট সামনে আনা হচ্ছে চ্যালেঞ্জের ব্যাপার। এই চ্যালেঞ্জিং ব্যাপারটি গুগল ভালোভাবে করতে পারার কারণেই তারা এখন বিশ্বের এক নাম্বার সার্চ ইঞ্জিন। 

গুগল প্রতিটি প্রশ্নের বিপরীতে সর্বোচ্চ চেষ্টা করে রিলিভেন্ট তথ্য ইউজারের সামনে হাজির করতে। যেহেতু ইন্টারনেটে প্রতিদিন লক্ষ লক্ষ নতুন পেইজ যুক্ত হচ্ছে, গুগলবটও সেগুলো ক্যাফেইনে সংযুক্ত করতে থাকে। বিষয়টা গুগলের জন্য সহজ মনে হলেও আদতে সহজ নয়। 

গুগল এতসব লিংক-এর মধ্য থেকে সবচেয়ে ভালো রেজাল্ট সামনে নিয়ে আসা নিয়ে কাজ করে। এইজন্য গুগল অনেক ধরনের ফিল্টার ব্যবহার করে। আমরা এই ধরণের ফিল্টারগুলোকে ‘সার্চ ইঞ্জিন র‍্যাঙ্কিং ফ্যাক্টর’ বলতে পারি। গুগলের প্রায় ২১৭টির অধিক সার্চ ইঞ্জিন র‍্যাঙ্কিং ফ্যাক্টর রয়েছে। 

এই সবগুলো র‍্যাঙ্কিং ফ্যাক্টরের মাধ্যমে গুগল এতগুলো লিংক-এর মধ্য থেকে সবচেয়ে ভালো রেজাল্ট সামনে নিয়ে আসতে পারে। তার মানে কথাটা এমন দাঁড়াচ্ছে যে-

গুগলের প্রথমদিকে যতগুলো রেজাল্ট দেখায়, গুগল সেগুলোকে সার্চ করা প্রশ্নের জন্য সবচেয়ে উপযুক্ত রেজাল্ট মনে করে। 

তাহলে কি গুগল আমার সবপেইজ ক্রল করে ফেলে? 

উত্তর হচ্ছে- এটা নির্ভর করে আপনার ওপর। গুগল বা অন্যান্য সার্চ ইঞ্জিনকে আপনার ওয়েবসাইট ক্রল করতে দেবেন কিনা তার এক্সেসও আপনার কাছে আছে। আপনার অনেক পেইজ রয়েছে যেগুলোর ডাটা আপনি নিশ্চয়ই পাবলিক করতে চাইবেন না। সেগুলো আপনি Robots.txt এর মাধ্যমে নির্ধারণ করে দিতে পারবেন। 

Robots.txt কি?

Robots.txt হচ্ছে একপ্রকার নির্ধারক যা সার্চ ইঞ্জিনগুলোকে বলে দেবে কোন পেইজ ক্রল করতে পারবে আর কোন পেইজ ক্রল করতে পারবে না। এই Robots.txt এর মাধ্যমে আপনি সাইটের গোপনীয়তা রক্ষা করতে পারবেন। 

গুগল কীভাবে Robots.txt কে দেখে? 

গুগল যখন কারও সাইটে Robots.txt পায় তাহলে সে যা করে-

  • যদি সাইটে Robots.txt না থাকে, তাহলে সে পুরো সাইট ক্রল করে।
  • যদি সাইটে Robots.txt ফাইল পাওয়া যায়, তাহলে Robots.txt-এর নির্দেশনা মোতাবেক কাজ করে। কারণ Robots.txt-এ সবকিছু নির্ধারণ করে দেওয়া যায় কোন পেইজ ক্রল করতে হবে তা।
  • যদি সাইটে Robots.txt এরর দেখায়, তাহলে গুগল ঐ সাইট ক্রল করেনা। তাই Robots.txt ব্যবহারে সাবধান হওয়া জরুরি। সামান্যতম ভুলে আপনি অনেক সম্ভাব্য ট্রাফিক হারাতে পারেন। 

আমি কি দেখতে পারব গুগলবট শেষ কবে আমার সাইট ক্রল করেছে?

হ্যাঁ আপনি অবশ্যই দেখতে পারবেন। ক্যাশড ভার্সনের মাধ্যমে আপনি একনজর দেখে নিতে পারবেন শেষ কবে আপনার সাইট গুগলবট ক্রল করেছে।

গুগল সার্চ-এর মাধ্যমে ড্রপডাউন বাটনে চাপলে আপনি ক্যাশড লেখাটি দেখতে পাবেন। তখন আপনি দেখবেন, শেষ যখন গুগল আপনার সাইট ভিজিট করেছে তখন পেইজটি দেখতে কেমন ছিল। 

ইন্ডেক্স হওয়া পেইজ কি রিমুভড হয়?

হ্যাঁ, আজকাল অনেকের সাইটে এই ধরনের সমস্যা দেখা দিচ্ছে। ইন্ডেক্স হওয়া পেইজ কিছুদিন পর ডি-ইন্ডেক্স হয়ে যাচ্ছে। এর সম্ভাব্য অনেকগুলো কারণ রয়েছে। যেমন-

  • URL 4xx অথবা 5xx ইরোর দেখাচ্ছে। অথবা 301 রিডাইরেক্ট ঠিকমত কাজ করছে না। 
  • URL-এ হয়তো নো-ইন্ডেক্স ট্যাগ জুড়ে দেওয়া রয়েছে। যেখানে সাইটের ওনার চাচ্ছেন এই পেইজ যেন ইন্ডেক্স না করা হয়। 
  • URL কোন ধরণের সার্চ ইঞ্জিন ওয়েবমাস্টারের কোন প্রকার গাইডলাইন অমান্য করার কারণে পেনালাইজ হওয়া (এটি সবচেয়ে বড় কারণগুলোর মধ্যে একটি)। 
  • URL ব্লকও হয়ে থাকতে পারে। যেমন কিছু পেইজ আছে ভিজিটরকে ইউজার পাসওয়ার্ড ছাড়া প্রবেশ করতে দেয়া হয়না সেই সমস্ত পেইজ। 

Tech Vergebd

Share

2 Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

Default