কম্পিউটারকে বাংলা শেখান তাঁরা

অলংকরণ: রৌদ্র বড়ুয়া

কম্পিউটার মশাই ইংরেজি ‘পড়তে’ এবং ‘বুঝতে’ শিখেছেন অনেক আগেই। সে কারণেই ইংরেজি কোনো লেখার ওপর মুঠোফোনের ক্যামেরা ধরলে অনেক অ্যাপ চট করে সেটা পড়ে ফেলে ডিজিটালে রূপান্তর করতে পারে। অ্যামাজনের অ্যালেক্সা কিংবা অ্যাপলের সিরিকেও ইংরেজিতে কোনো নির্দেশনা দিলে বুঝে ফেলে মুহূর্তেই। বাংলার বেলায় এমনটা হবে না কেন? এই সমস্যা সমাধানের লক্ষ্যেই কাজ করছেন একদল গবেষক। কম্পিউটারকে বাংলা শেখানোর উদ্যোগ নিয়েছেন তাঁরা। নাম দিয়েছেন ‘বেঙ্গলি ডটএআই’।

নেট ঘেঁটেঘুঁটে বিস্তর পড়ালেখা করে মনে হয়েছিল, বেঙ্গলি ডটএআইয়ের কার্যক্রম অনেকটাই বুঝতে পেরেছি। আলাপ করতে গিয়ে মনে হলো, আদতে তা নয়। যতটা ভেবেছি, কাজের পরিধি তার চেয়ে অনেক বিস্তৃত, কিংবা অনেক গভীর। সে কারণেই আমাদের আলোচনায় ‘৭ হাজার গবেষক’, ‘২ হাজার প্রতিযোগী’, ‘১০ হাজার ঘণ্টার ডেটা’, ‘২৩ হাজার কণ্ঠস্বর’, ‘৩৩ হাজার নথিপত্র’, ‘৭ লাখ হাতের লেখা’...এমন বড় বড় সংখ্যা ঘুরেফিরে এল বারবার।

সহজ করে বললে, বেঙ্গলি ডটএআই একটি অলাভজনক উদ্যোগ। বিশ্বের নানা প্রান্ত থেকে ৭ হাজারের বেশি গবেষক এই উদ্যোগের মাধ্যমে বাংলা ভাষা এবং এ-সংক্রান্ত প্রযুক্তি নিয়ে কাজ করছেন। কৃত্রিম বুদ্ধিমত্তা প্রযুক্তি কাজে লাগিয়ে কম্পিউটারকে বাংলা শেখানোই তাঁদের উদ্দেশ্য।

বেঙ্গলি ডটএআইয়ের সদস্যদের একাংশ
ছবি: সংগৃহীত

তাঁরা কারা? তালিকায় বিশ্ববিদ্যালয়ের শিক্ষার্থীরা যেমন আছেন, আছেন পিএইচডি গবেষক, শিক্ষক, প্রোগ্রামাররাও। কেউ বাংলাদেশের প্রত্যন্ত অঞ্চল থেকে উপাত্ত দিয়ে সাহায্য করছেন, কেউবা ভিনদেশের বিশ্ববিদ্যালয়ের গবেষণাগারে বসে করছেন উপাত্ত বিশ্লেষণ কিংবা অ্যালগরিদম তৈরির কাজ।

তথ্য যেখানে উন্মুক্ত

শুরুটা হয়েছিল ২০১৭ সালের শেষের দিকে। দেশের বিভিন্ন বিশ্ববিদ্যালয়ে ছড়িয়ে-ছিটিয়ে কয়েকজন শিক্ষার্থী বাংলা ভাষা-সংক্রান্ত প্রযুক্তি নিয়ে কাজ করছিলেন। নানা প্রতিযোগিতা, আয়োজনের সুবাদেই তাঁদের পরিচয়। বাংলাদেশ প্রকৌশল বিশ্ববিদ্যালয়ের (বুয়েট) স্নাতক আহমেদ ইমতিয়াজ হুমায়ূনও বেঙ্গলি ডটএআইয়ের প্রধান উদ্যোক্তাদের একজন। এখন যুক্তরাষ্ট্রের রাইস ইউনিভার্সিটিতে গবেষণা করছেন। বলছিলেন, ‘আমরা কম্পিউটারকে বাংলা ভাষা শেখানোর জন্য বেঙ্গলি ডটএআইয়ের শুরু করেছিলাম। আমাদের লক্ষ্য ছিল এমন সব ভাষার প্রযুক্তিগত তথ্যভান্ডার তৈরি করা, যা হবে উন্মুক্ত। বিনা মূল্যে যে কেউ ব্যবহার করতে পারবেন। বলা যায়, এটা কম্পিউটারের জন্য একটা “বাংলা শিক্ষা” বই। এই বই ব্যবহার করে একজন বিশ্ববিদ্যালয় ছাত্র থেকে শুরু করে বড় সফটওয়্যার কোম্পানিও কম্পিউটারকে বাংলা শেখাতে পারবে।’

একটু ভালো করে বোঝা যাক আসিফ সুস্মিতের কাছ থেকে। আসিফও বুয়েটের প্রাক্তন ছাত্র, এখন যুক্তরাষ্ট্রে পিএইচডি করছেন। বেঙ্গলি ডটএআইয়ে গবেষক দলের সমন্বয়ক তিনি। গুগল মিট অ্যাপে ‘দেখা হলো’ তাঁর সঙ্গে।

বেঙ্গলি ডটএআইয়ে গবেষক দলের সমন্বয়ক সুস্মিত
ছবি: সংগৃহীত

বলছিলেন, ‘কম্পিউটারকে বাংলা ভাষার প্রশিক্ষণ দিতে প্রচুর ডেটা প্রয়োজন। একটি প্রতিষ্ঠানের পক্ষে এত ডেটা সংগ্রহ করা সম্ভব নয়। আমরা বিভিন্ন ক্যাম্পেইনের মাধ্যমে এই ডেটা সংগ্রহ করি।’ সংগৃহীত ডেটা কাজে লাগানোর মতো অ্যালগরিদম বা পদ্ধতিও খুঁজে বের করার চেষ্টা করেন তাঁরা।

কীভাবে? বিভিন্ন প্রতিযোগিতা আয়োজনের মাধ্যমে। কখনো আন্তর্জাতিক, কখনোবা আন্তবিশ্ববিদ্যালয় প্রতিযোগিতা আয়োজন করে সমাধান খোঁজার চেষ্টা করে বেঙ্গলি ডটএআই। এ মাসেই যেমন বুয়েটে চলছে একটি প্রতিযোগিতা। নাম ‘ভাষাভ্রম’। শিক্ষার্থীরা ছোট ছোট দলে ভাগ হয়ে প্রতিযোগিতায় অংশ নিচ্ছেন। বাংলা ব্যাকরণগত ভুল ধরতে পারে, এমন একটি কৃত্রিম বুদ্ধিমত্তাসম্পন্ন প্রোগ্রাম তৈরি করাই এখানে প্রতিযোগীদের কাজ।

আসিফ বলছিলেন, ‘প্রতিযোগিতা আয়োজন করার সুবিধা হলো, আমরা এর মাধ্যমে সম্ভাব্য অনেকগুলো পথ খুঁজে পাই। ১০০টি দল হয়তো ১০০ ভাবে সমস্যা সমাধানের চেষ্টা করে। আমরা যাচাই-বাছাই করে দেখি, কোনটার সীমাবদ্ধতা কী। সবই কিন্তু উন্মুক্ত। প্রাথমিক ধাপগুলো কাজে লাগিয়ে যে কেউ আরও উন্নত পর্যায়ের অ্যালগরিদম তৈরি করতে পারে।’

২০২০ সালে বাংলা হাতের লেখা পড়তে পারে, এমন একটি কৃত্রিম বুদ্ধিমত্তাসম্পন্ন প্রোগ্রাম (ইংরেজিতে বলা হয় অপটিক্যাল ক্যারেক্টার রিকগনিশন, সংক্ষেপে ওসিআর) তৈরির প্রতিযোগিতা আয়োজন করেছিল বেঙ্গলি ডটএআই। এই আন্তর্জাতিক প্রতিযোগিতার মঞ্চ ছিল কেগেল। কেগেল মূলত গুগলের তৈরি একটি ওয়েবসাইট, যেখানে ডেটাসংক্রান্ত কাজ করা যায়। বিশ্বের নানা প্রান্ত থেকে প্রোগ্রামাররা প্রতিযোগিতায় অংশ নিয়েছিলেন। বিজয়ী হয়েছিলেন একজন জাপানি তরুণ।

বাংলার জন্য

দেশের বেশ কয়েকটি বিশ্ববিদ্যালয়ের সঙ্গে এক হয়ে কাজ করছে বেঙ্গলি ডটএআই, জানালেন সিহা হক। বাংলাদেশ ইউনিভার্সিটি অব প্রফেশনালসে (বিইউপি) মার্কেটিং নিয়ে পড়েছেন তিনি। একটি প্রযুক্তিপ্রতিষ্ঠানে শিক্ষানবিশির পাশাপাশি এখন বেঙ্গলি ডটএআইয়ের ক্যাম্পেইন ব্যবস্থাপক হিসেবে কাজ করছেন। সিহা বলেন, ‘বুয়েট থেকে শুরু করে ঢাকা বিশ্ববিদ্যালয়, শাহজালাল বিজ্ঞান ও প্রযুক্তি বিশ্ববিদ্যালয়, ড্যাফোডিল ইন্টারন্যাশনাল ইউনিভার্সিটি, গ্রিন ইউনিভার্সিটি, নর্দার্ন ইউনিভার্সিটি, একেক শিক্ষাপ্রতিষ্ঠানের সঙ্গে আমাদের যুক্ততা একেক রকম। কারও সঙ্গে এমওইউ (সমঝোতা স্মারক) আছে। কোথাও হয়তো আমরা প্রতিযোগিতা বা কর্মশালা করেছি। কোনো কোনো শিক্ষার্থী আমাদের ডেটা ব্যবহার করে থিসিস করছেন, তাঁদেরও আমরা সাহায্য করছি।’

বেঙ্গলি ডটএআই শুধু যে কম্পিউটারকে বাংলা শেখায়, তা নয়। কম্পিউটার ঠিকমতো শিখছে কি না, তা মূল্যায়নের জন্য প্রশ্নপত্র প্রণয়নও করে। সেটা কী রকম? আসিফ বলছিলেন, ‘ধরুন, প্রমিত বাংলায় একটা বাক্যের অর্থ কম্পিউটার ধরতে পারল। কিন্তু একেক অঞ্চলের মানুষের উচ্চারণ তো একেক রকম। সবার কথা কি ধরতে পারবে? এসব পরীক্ষা-নিরীক্ষা করার জন্য ও কম্পিউটারকে শেখানোর জন্য বিভিন্ন জেলার মানুষের ভয়েস রেকর্ড আমাদের দরকার ছিল। ২৩ হাজার মানুষের কাছ থেকে ২ হাজার ঘণ্টার ভয়েস রেকর্ড পেয়েছি। সব মিলিয়ে ১০ হাজার ঘণ্টার ভয়েস রেকর্ড দরকার।’

পাঠক, যদি আসিফদের গবেষণায় সাহায্য করতে চান, ভয়েস রেকর্ড দিতে পারেন আপনিও। সে জন্য যেতে হবে এই ওয়েবসাইটে

জানিয়ে রাখি, বেঙ্গলি ডটএআইয়ের বিশাল কর্মযজ্ঞের পুরোটাই চলছে সদস্যদের অনুদানের ভিত্তিতে। ২০২৩ সালটা তাঁদের জন্য খুব গুরুত্বপূর্ণ। কারণ, শুরু থেকেই তাঁরা চাইছিলেন, ১৯৫২-এর ৭১ বছর পূর্তিটা যেন একটা মাইলফলক হয়ে থাকে। সবাই মিলে বাংলা ভাষার জন্য এমন এক প্রযুক্তি তাঁরা তৈরি করতে চান, যা হবে সবার জন্য উন্মুক্ত।