
Sarvam AI: আর্টিফিশিয়াল ইন্টেলিজেন্স তথা AI মডেলের কথা উঠলেই স্পটলাইট মূলত মার্কিন যুক্তরাষ্ট্র এবং চিনের উপরেই বেশি থাকে। কিন্তু পিছিয়ে নেই ভারতও। বেঙ্গালুরু ভিত্তিক স্টার্টআপ সারভাম এআই এই ধারনাটিকে কার্যত, বদলে দিয়েছে (sarvam ai pricing)।
সংস্থাটি ভারতে একেবারে শুরু থেকেই মৌলিক AI-এর উপর ভিত্তি করে মডেল তৈরি করছে। এই সপ্তাহে তাদের দুটি টুল Sarvam Vision এবং Bulbul রীতিমতো আলোচনার কেন্দ্রবিন্দুতে চলে এসেছে (bulbul v3 ai voice)।
সার্ভম ভিশন স্পষ্টতই চ্যাটজিপিটি, গুগল জেমিনি এবং অ্যানথ্রপিক ক্লডের মতো বৃহত্তর এবং আলোচিত এআই মডেলগুলিকে অপটিক্যাল ক্যারেক্টার রিকগনিশন (ওসিআর) -এর কিছু মানদণ্ডের দিক দিয়েও ছাড়িয়ে যাচ্ছে, যা তাদের দক্ষতার প্রধান ক্ষেত্র। এটির পারফরম্যান্স আপাতদৃষ্টিতে এতটাই ভালো যে, এটি ব্যবহারকারী এবং বিশেষজ্ঞ উভয়ের কাছ থেকেই প্রশংসা অর্জন করছে।
সার্ভম এআই-এর সহ-প্রতিষ্ঠাতা প্রত্যুষ কুমার সম্প্রতি এক্স হ্যান্ডলে একাধিক পোস্ট করে কোম্পানির ইন-হাউজ এআই মডেলগুলির সর্বশেষ আপডেটের বিবরণটি শেয়ার করেছেন। সংস্থার মতে, সার্ভম ভিশন olmOCR-Bench-এ ৮৪.৩% নির্ভুলতার স্কোর অর্জন করে ফেলেছে। এই স্কোর জেমিনি ৩ প্রো এবং ডিপসিক ওসিআর ভি২-এর মতো সাম্প্রতিক ওসিআর মডেলগুলির চেয়ে বেশি, যেখানে চ্যাটজিপিটি উল্লেখযোগ্যভাবে নিচে অবস্থান করছে।
এছাড়াও সর্বম ভিশন OmniDocBench v1.5-এও ভালো স্কোর করেছে। এটি একটি বেঞ্চমার্ক যা AI সিস্টেমগুলি বাস্তব-বিশ্বের নথিগুলি কীভাবে পড়ে এবং বোঝে তা পরীক্ষা করে। এটি সামগ্রিকভাবে ৯৩.২৮% স্কোর করেছে, বিশেষ করে জটিল লেআউট, প্রযুক্তিগত টেবিল এবং গাণিতিক সূত্রগুলিতে শক্তিশালী ফলাফল সহ। এই ক্ষেত্রগুলিতে ঐতিহ্যবাহী OCR সিস্টেমগুলি প্রায়শই অগোছালো বিন্যাস এবং ঘন কন্টেন্টের কারণে লড়াই করে থাকে।
এআই টুলের কার্যকারিতা বিশ্বব্যাপী মনোযোগ আকর্ষণ করেছে। প্রযুক্তি ভাষ্যকার দীদি দাস, যিনি আগে ছোট ভারতীয়-ভাষা মডেল তৈরির মূল্য নিয়ে প্রশ্ন তুলেছিলেন, সম্প্রতি স্বীকার করেছেন যে, কোম্পানিটি সম্পর্কে তাঁর মূল্যায়ন সঠিক নয়। এক্স-এর একটি পোস্টে, দাস বলেছেন যে ভারতীয় ভাষার জন্য সর্বমের ওসিআর এবং স্পিচ মডেলগুলি শক্তিশালী এবং একটি শূন্যস্থান পূরণ করে, যা বৃহৎ বিশ্বব্যাপী এআই ল্যাবগুলি মূলত উপেক্ষা করেছে।
ব্যবহারকারীদের কাছ থেকেও প্রশংসা এসেছে। একজন ব্যবহারকারী সর্বম-এর মডেলগুলির সঙ্গে তাদের অভিজ্ঞতা সম্পর্কে কথা বলেছেন এবং লিখেছেন, "আমি কয়েকদিন আগে এটি ব্যবহার করেছি! ওহ বাহ।"
OCR টুল ছাড়াও, Sarvam তাদের নতুন AI ভয়েস মডেল Bulbul V3 চালু করেছে। এটি একটি টেক্সট-টু-স্পিচ AI মডেল যার লক্ষ্য AI ব্যবহার করে অডিও তৈরি করা। এক অর্থে এটি ElevenLabs দ্বারা অফার করা AI টুলের অনুরূপ, যা এই ক্ষেত্রে সেরা বলে বিবেচিত হয়।
"আজ আমরা Bulbul V3 প্রকাশ করছি, আমাদের সবচেয়ে সক্ষম টেক্সট-টু-স্পিচ মডেল যা ভারতীয় ভাষাগুলির জন্য প্রাকৃতিক, অভিব্যক্তিপূর্ণ এবং উৎপাদন-প্রস্তুত ভয়েস সরবরাহ করার জন্য ডিজাইন করা হয়েছে," Sarvam একটি ব্লগ পোস্টে উল্লেখ করা হয়েছে। "Bulbul V3 ব্যর্থতার মোডগুলিকে কমিয়ে আনে, ভারত-নির্দিষ্ট ব্যবহারের ক্ষেত্রে গুরুত্বপূর্ণ ইনপুটগুলিতে কন্টেন্ট-নির্ভুল, স্থিতিশীল বক্তৃতা সরবরাহ করে।"
বর্তমানে, এই টুলটি ১১টি ভারতীয় ভাষায় ৩৫ টিরও বেশি ভয়েসকে সাপোর্ট করে। কোম্পানিটি জানিয়েছে যে, আরও ২২টি ভাষায় সম্প্রসারণের পরিকল্পনা রয়েছে তাদের। বুলবুলও কিছু প্রশংসা অর্জন করেছে। কিসানএআই-এর প্রতিষ্ঠাতা প্রতীক দেশাই X-এ লিখেছেন, "আমরা আমাদের ইন্ডিক ব্যবহারের ক্ষেত্রে বুলবুলকে আমাদের পছন্দের টিটিএস মডেল হিসেবে ব্যবহার করি এবং প্রতিটি প্রকাশের সঙ্গে সঙ্গে তারা আরও উন্নত হয়েছে। এদিকে, ইন্ডিক বা অন্য কোনও ভাষার জন্য ইলেভেনল্যাবসের দাম কখনই অর্থবহ ছিল না।"
আরও খবরের আপডেট পেতে চোখ রাখুন আমাদের হোয়াটসঅ্যাপ চ্যানেলে, ক্লিক করুন এখানে।