কোটি কোটি ওয়েবসাইট থেকে কীভাবে সঠিক তথ্য দেখায় গুগল

ভারতীয় ভাষাগুলোর মধ্যে ‘কুৎসিততম’ কোনটি, গুগলে তা জানতে চেয়েছিলেন একজন। ফলাফলের পাতায় গুগল দেখিয়েছে, দক্ষিণ ভারতের চার কোটি মানুষের ভাষা কন্নড়। এরপর তীব্র সমালোচনার মুখে পড়ে সার্চ ইঞ্জিনটি। ফলাফলের পাতা থেকে সে লেখা মুছে ফেলেছে। মাফ চেয়েছে। তবু কন্নড়ভাষীদের মন ফেরাতে পারেনি। পারার কথাও নয়।

নিজেদের প্ল্যাটফর্মে গুগল কী দেখাবে, সে বিষয়ে নিঃসন্দেহে আরও দায়িত্বশীল হতে হবে তাদের। মানুষের অনুভূতিতে আঘাত দেওয়ারও কোনো অধিকার নেই। তবে এখানে আরেকটি বিষয় ভেবে দেখা দরকার।

‘কুৎসিততম ভাষা’র খোঁজ করেছেন একজন। কন্নড়ের উল্লেখ ছিল আরেকটি ওয়েবসাইটে। অর্থাৎ একজনের প্রশ্নের জবাব আরেকটি উৎস থেকে কেবল উপস্থাপন করেছে গুগল। এটা ঠিক যে তথ্যের উৎস নির্বাচনে আরও সাবধানী হতে পারত গুগল। তাহলেই এমন সমস্যায় পড়তে হতো না। তবে প্রশ্ন হলো, কোটি কোটি ওয়েবসাইট থেকে মানুষের সামনে কাঙ্ক্ষিত ফলাফল কীভাবে দেখায় গুগল?

আরও পড়ুন

গুগল কীভাবে কাজ করে, তা গুগল নিজেই জানিয়েছে। লেখার নিচে যুক্ত করা ভিডিওতে তা দেখে নিতে পারেন। সেখানে বলা হয়েছে, কেউ যখন কিছু লিখে গুগলে খোঁজে, সে ব্যাপারে হাজারো, কখনো কখনো কোটি কোটি ওয়েবসাইটে সহায়ক তথ্য থাকে। সেসব থেকে কোন ওয়েবসাইটটি আপনার সামনে উপস্থাপন করা হবে, সে প্রক্রিয়া শুরু হয় আপনার প্রশ্ন টাইপ করার বহু আগেই।

গুগলের তথ্য খোঁজার ধরন অনেকটা লাইব্রেরির মতো

গুগলে কোনো কিছু খোঁজা মানে কিন্তু সরাসরি ওয়েবসাইটে তথ্য খোঁজা নয়। বরং গুগলের ইনডেক্সে তথ্য খোঁজা। কোনো ওয়েবসাইটে কী ধরনের তথ্য আছে, তা থাকে এই ইনডেক্সে। এটাকে লাইব্রেরির সঙ্গে তুলনা করা যেতে পারে।

মনে করুন, আপনি লাইব্রেরিতে গিয়ে বগুড়ার মহাস্থানগড় সম্পর্কে জানতে চান। লাইব্রেরিয়ানকে তা বললেন। লাইব্রেরিয়ান আপনাকে ওই লাইব্রেরিতে থাকা বইয়ের তালিকা দিতে পারে, যাতে বগুড়া সম্পর্কে তথ্য আছে। জানাতে পারে সে বইগুলো কোন কোন তাকে আছে।

এরপর আপনার কাজ হলো বইগুলো এনে পড়ে দেখা। তবে বগুড়া সম্পর্কে আরও তথ্য এমন বইতে থাকতে পারে, যা ওই লাইব্রেরিতে নেই। লাইব্রেরিয়ান আপনাকে সেগুলো দেখাতে পারবে না। আর লাইব্রেরিয়ানের দক্ষতা হলো, আপনার কাঙ্ক্ষিত তথ্য কোন বইতে আছে, তার নির্ভুল খোঁজ দেওয়া।

আমরা গুগলকে লাইব্রেরিয়ান, লাইব্রেরিকে ইনডেক্স এবং বইগুলোকে ওয়েব পেজের সঙ্গে তুলনা করতে পারি। আপনি যখন গুগলে কিছু খোঁজেন, গুগল তখন ইনডেক্স ঘেঁটে দেখে সে তথ্য কোন ওয়েবসাইটে আছে। এরপর আপনার সামনে ফলাফল দেখায়। আপনি বই খুলে দেখার মতো সার্চ রেজাল্ট থেকে ওয়েব পেজ খুলে কাঙ্ক্ষিত তথ্য পেতে পারেন।

ইনডেক্সে কোনো ওয়েবসাইট কীভাবে যুক্ত করে গুগল

গুগলের ওয়েব ক্রলার স্বয়ংক্রিয়ভাবে কোটি কোটি ওয়েব পেজ ঘেঁটে দেখে। একটি ওয়েব পেজে থাকা হাইপারলিংক ধরে আরেক ওয়েব পেজে যায় সেই ক্রলার, পুরো পেজের কনটেন্ট বা বিষয়বস্তু স্ক্যান করে দেখে। এরপর সে তথ্য সাজিয়ে রাখে সার্চ ইনডেক্সে।

স্বয়ংক্রিয়ভাবে ওয়েব পেজ স্ক্যান করার পাশাপাশি ওয়েবসাইটের মালিকও সেই ওয়েবসাইটে থাকা ওয়েব পেজের তালিকা জমা দিতে পারে গুগলের কাছে। এই তালিকার নাম সাইট ম্যাপ। তবে গুগলের দাবি, তারা কখনো ইনডেক্সে কোনো ওয়েবসাইট যুক্ত করতে বা প্রাধান্য দিতে অর্থ নেয় না। সার্চ রেজাল্ট থেকে বিজ্ঞাপন পুরোপুরি আলাদা, যা পরিষ্কারভাবে উল্লেখ করে দেওয়া থাকে।

গুগল সার্চের ইনডেক্সকে যদি লাইব্রেরির সঙ্গে তুলনা করা হয়, তবে সেটার আকার অত্যন্ত বড় হবে। সে ইনডেক্সে কোটি কোটি ওয়েব পেজ আছে। আর আকার ১০ কোটি গিগাবাইটের অনেক বেশি বলে গুগলের ভাষ্য।

প্রতিনিয়ত হালনাগাদ চলছে

গুগলের তথ্য খোঁজার ধরন একসময় কেবল কি-ওয়ার্ডনির্ভর ছিল। অর্থাৎ আপনি যা লিখে খুঁজছেন, সেই শব্দগুলো যে ওয়েবসাইটে আছে, কেবল তা-ই উপস্থাপন করত। এখন আরও অনেক কিছু দেখে। যেমন যে শব্দগুলো লিখে খুঁজছেন, তার বাইরেও আপনার বক্তব্যের অর্থ বোঝার চেষ্টা করে গুগল।

তা ছাড়া আপনি যে তথ্য খুঁজছেন, তা ওয়েবসাইটের কনটেন্টের সঙ্গে কতটা প্রাসঙ্গিক, তা-ও বোঝার চেষ্টা করে। এরপর দেখে কনটেন্টের মান। আবার সে কনটেন্টের উপস্থাপনা, অর্থাৎ সহজে পড়া যায় কি না, সেটিও বোঝার চেষ্টা করে গুগল। এরপর ব্যবহারকারীর অবস্থান, আগে কী কী খুঁজেছেন, সার্চ সেটিংসে কী কী ঠিক করে দিয়েছেন, ফলাফল দেখানোর সময় সেগুলোকেও প্রাধান্য দেওয়া হয়।

কীভাবে তথ্য উপস্থাপন করলে ব্যবহারকারী সবচেয়ে উপকৃত হবে, তা নিয়ে প্রতিনিয়ত পরীক্ষা-নিরীক্ষা চালাচ্ছে গুগল। তা ছাড়া সার্চ ইনডেক্স থেকে ক্ষতিকর ওয়েবসাইট বাদ দেওয়ার জন্যও কাজ করে যাচ্ছে।

আবার আপনি হয়তো দেখে থাকবেন, গুগলে ভুল বানান লিখলেও সঠিক ফলাফল দেখায়। আবার সঠিক শব্দটি মাথায় না এলে কাছাকাছি শব্দ ব্যবহার করেও তথ্য খোঁজা যায়। এর সবই প্রতিনিয়ত গবেষণা ও উন্নয়নের ফল।