ছবি থেকে লেখা শনাক্তে ডিপসিকের নতুন এআই টুল
ছবিতে থাকা যেকোনো লেখা দ্রুত ও নির্ভুলভাবে শনাক্ত করতে সক্ষম এআই টুল তৈরি করেছে চীনের কৃত্রিম বুদ্ধিমত্তাভিত্তিক প্রতিষ্ঠান ডিপসিক। ওপেনসোর্সনির্ভর এআই টুলটির নাম ডিপসিক ওসিআর। বই, গবেষণাপত্র বা পত্রিকার পৃষ্ঠার লেখা শনাক্তে এআই টুলটি বিশেষভাবে কার্যকর বলে জানিয়েছে প্রতিষ্ঠানটি।
ডিপসিকের তথ্যমতে, ডিপসিক ওসিআর জটিল নথিকে খুব কম মেমোরি ব্যবহার করে প্রক্রিয়াজাত করতে পারে। লার্জ ল্যাংগুয়েজ মডেলের (এলএলএম) ক্রমবর্ধমান চাহিদার কথা মাথায় রেখে নতুন এআই টুলটি তৈরি করা হয়েছে। টুলটি একই সঙ্গে লেখা ও ছবি বিশ্লেষণ করতে পারে। ডিপসিক ওসিআর ওপেনসোর্স হওয়ায় ডেভেলপাররা গিটহাব বা হাগিং ফেস থেকে বিনা মূল্যে ডাউনলোড করে নিজেদের অ্যাপ্লিকেশনে ব্যবহার করতে পারবেন।
ডিপসিক ওসিআর যেকোনো নথির ছবি, যেমন স্ক্যান করা প্রতিবেদন, বই বা পত্রিকার পৃষ্ঠা থেকে লেখা শনাক্ত করতে পারে। ডিপসিক ওসিআর নথির জটিলতা অনুযায়ী আলাদাভাবে কাজও করতে পারে, অর্থাৎ সহজ নথি যেমন স্লাইড বা সংক্ষিপ্ত প্রতিবেদন প্রক্রিয়াজাত করার সময় এটি প্রায় ৬৪ টোকেন ব্যবহার করে। বই বা গবেষণাপত্রের মতো জটিল নথিতে টোকেনের সংখ্যা বেড়ে হয় প্রায় ১০০। এতে এআই টুলটির কাজের গতি ও নির্ভুলতার মধ্যে ভারসাম্য বজায় থাকে।
পত্রিকার মতো ঘন বিন্যাসের নথি প্রক্রিয়াজাত করার সময় ডিপসিক ওসিআরে সক্রিয় হয় বিশেষ ‘গানডাম মোড’। এ অবস্থায় এটি সর্বোচ্চ ৮০০ টোকেন ব্যবহার করে এবং ‘টাইলিং’কৌশলের মাধ্যমে ছবির প্রতিটি অংশ আলাদাভাবে বিশ্লেষণ করে। ‘অমনিডকবেঞ্চ’ নামের এক মানদণ্ডে ডিপসিক ওসিআরের কার্যকারিতা যাচাই করা হয়েছে। পরীক্ষায় দেখা গেছে, অন্যান্য ওসিআর সিস্টেম যেখানে কয়েক শত বা হাজারের বেশি টোকেন ব্যবহার করেছে, সেখানে ডিপসিক ওসিআর মাত্র ১০০ টোকেন ব্যবহার করেই লেখা শনাক্ত করতে পেরেছে। বিশেষ করে ইংরেজি ও চীনা ভাষায় লেখা নথির ক্ষেত্রে ডিপসিক ওসিআরের ভুলের হার উল্লেখযোগ্যভাবে কম।
সূত্র: টাইমস অব ইন্ডিয়া