অনেক প্রতীক্ষা ও পরীক্ষা-নিরীক্ষার পর নানা ধরণের ফিচার নিয়ে অবশেষে বাজারে এসেছে গুগলের কৃত্রিম বুদ্ধিমত্তা জেমিনি এআই। এখন প্রশ্ন হচ্ছে এই জেমিনি এআই কি পারবে প্রতিদ্বন্দ্বী ওপেন এআইয়ের চ্যাটজিপিটিকে হারাতে?
গুগলের প্রধান নির্বাহী কর্মকর্তা সুন্দর পিচাই উদ্বোধনের দিনই জানিয়ে দিয়েছেন, ওপেন এআইয়ের চ্যাটজিপিটিকে টেক্কা দেবে এই প্রযুক্তি। আর বিভিন্ন ভাষায় দক্ষতার সঙ্গে কাজও করতে পারবে জেমিনি এআই।
জেমিনি একটি মাল্টিমডেল জেনারেটিভ এআই। অর্থাৎ ছবি, ভিডিও, অডিও, ডকুমেন্ট, ইনফোগ্রাফিক, রিজনিং-সহ একাধিক বিষয় বোঝার ক্ষমতা রয়েছে জেমিনির। যদিও একই জিনিস চ্যাটজিপিটিও করতে পারে, শুধু ফারাক রয়েছে দক্ষতার।
আর্টিফিশিয়াল ইন্টেলিজেন্স বা কৃত্রিম বুদ্ধিমত্তা এক সময় কল্পনা হলেও এখন তা হয়েছে বাস্তব। বিশ্বের নামীদামী বহু সংস্থার লড়াই এখন এআই ঘিরে। চোখ ধাঁধিয়ে দেওয়া প্রযুক্তিকে কাজে লাগিয়ে নতুন এআই টুল জেমিনি এআই নিয়ে এসেছে গুগল। চ্যাটজিপিটির প্রথম বর্ষপূর্তির কিছুদিন না যেতেই গুগল হাজির করলো বড় চমক। গুগল দাবি করছে, মানুষের থেকেও বুদ্ধিমান জেমিনি এআই।
বলা হচ্ছে, বিশ্বের অন্যতম বৃহৎ তথ্যপ্রযুক্তি কোম্পানি গুগলের এখন পর্যন্ত সব থেকে বড় বিজ্ঞান ও ইঞ্জিনিয়ারিং কীর্তি এই জেমিনি। গত আট বছর ধরে এই প্রযুক্তি নিয়ে কাজ করেছে সংস্থাটি। আর এক্ষেত্রে বড় ভূমিকা রেখেছে গুগলের মূল কোম্পানি অ্যালফাবেট-এর কৃত্রিম বুদ্ধিমত্তা বিভাগ।
গত ৬ ডিসেম্বর আনুষ্ঠানিক উদ্বোধন করা হয়েছে জেমিনিকে, ওইদিন থেকে উন্মুক্ত করা হয়েছে জনসাধারণের মধ্যে। ইংরেজি ভাষায় জেমিনির প্রথম ভার্সন রাখা হয়েছে গুগলের চাটবক্সে, যাকে বলা হয় ‘বারড’ (BARD)। আর এটি ব্যবহার করা যাচ্ছে বিশ্বের ১৭০-এর চেয়েও বেশি দেশে।
উন্মুক্ত করার পরই গত ১৩ ডিসেম্বর থেকে ডেভেলপাররা গুগল ক্লাউড এপিআইতে জেমিনি ব্যবহার করতে পারছে। পাশাপাশি এআইকোরের (AICore) মাধ্যমে জেমিনি ন্যানো ব্যবহার করতে পারছেন অ্যান্ড্রয়েড ব্যবহারকারীরা।
আর ভবিষ্যতে এটি আরো বিস্তৃতভাবে ব্যবহার করা যাবে বলে গুগলের তরফে জানানো হয়েছে। যেমন গুগলের বিভিন্ন প্রোডাক্ট-জেনারেটিভ সার্চ, বিজ্ঞাপন ও ক্রোম।
জেমিনি এআই কী
আর্টিফিশিয়াল ইন্টেলিজেন্স (এআই) বা কৃত্রিম বুদ্ধিমত্তা হলো এমন এক প্রযুক্তি যা মানুষের বুদ্ধিমত্তার ওপর ভর করে কম্পিউটার দ্বারা নিয়ন্ত্রিত হয়। এরা মানুষের দেয়া কমান্ড অনুযায়ী কাজ করে। যেমন কেউ যদি এআইকে কোনো বিষয়ের ওপর লিখতে বলে, তাহলে উন্মুক্ত তথ্যভান্ডার ব্যবহার করে নিজের মতো করে সেই বিষয়ে লিখে দেয় এআই।
জেমিনি একটি মাল্টিমোডাল এআই মডেল। অর্থাৎ পাঠ্য, ছবি বা চিত্র, অডিও প্রক্রিয়া করতে সক্ষম। তিনটি মোডে জেমিনি এআই মডেল ব্যবহার করা যাবে। এগুলো হলো- আল্ট্রা, প্রো ও ন্যানো।
কীভাবে কাজ করে জেমিনি এআই
নেটিভ্লি মাল্টিমডাল হিসাবে ব্যাখ্যা করা হয়েছে গুগলের নতুন এআই মডেল জেমিনিকে। ছবি, ভিডিও, অডিও ব্যবহার করে প্রশিক্ষণ দেওয়ার কারণে জেমিনিকে বলা হচ্ছে, অন্যান্য যেকোনো ল্যাঙ্গুয়েজ মডেলের তুলনায় আরো বেশি বহুমুখী ও শক্তিশালী।
তিন ধাপে কাজ করবে এই আর্টিফিশিয়াল ইন্টেলিজেন্স টুল - আল্ট্রা, প্রো এবং ন্যানো। তিন মোডে ভিন্ন দক্ষতা পাওয়া যাবে বলে জানিয়েছে সার্চ ইঞ্জিন।
গুগল দাবি করে যে, তাদের সবচেয়ে উন্নত সংস্করণ হলো জেমিনি প্রো। এটা ওপেন এআইয়ের সবচেয়ে উন্নত সংস্করণ জিপিটি ফোর-এর থেকেও বেশি স্মার্ট।
গুগল ডিপমাইন্ডের প্রোডাক্ট ভাইস প্রেসিডেন্ট এলি কলিন্স বলেছেন, জেমিনি হলো দুনিয়ার সবচেয়ে বড় এবং সবচেয়ে সক্ষম এআই মডেল, যা শুধু গুগলই এখন পর্যন্ত তৈরি করতে পেরেছে।
প্রো মোডে তুলনামূলক ছোট ল্যাঙ্গুয়েজ মডেল ব্যবহার করা হবে এবং ন্যানো মোডে থাকবে সব থেকে ছোট ল্যাঙ্গুয়েজ মডেল। এই ন্যানো মোড কম্পিউটার এবং ফোনেও চালানো যাবে।
গুগল ক্লাউড এআইয়ের ভাইস প্রেসিডেন্ট জানান, এই ধরনের এআই মডেলকে সাধারণত প্রশিক্ষণ দেওয়া হয়। তারপরই সে তার দক্ষতা সামনে আনতে পারে। এই টুলকে প্রশিক্ষণ দেওয়ার জন্য গুগল তাদের বিশেষ টেনসর প্রসেসিং ইউনিট (TPU), একটি বিশেষ হার্ডওয়্যার সিস্টেম ব্যবহার করবে।
জেমিনি এআইয়ের সুবিধা
গুগল জেমিনিকে প্রশিক্ষণ দেওয়া হয়েছে বিশাল ‘ডেটা কর্পাস’ দিয়ে। যেকোনো বিষয় বুঝতে, প্রশ্নের উত্তর দিতে, পাঠ্য বা টেক্সট তৈরি করতে এবং সেগুলোর আউটপুট দিতে বিভিন্ন নিউরাল নেটওয়ার্ক কৌশল ব্যবহার করে জেমিনি এআই।
লার্জ ল্যাঙ্গুয়েজ মডেলগুলিতে একটি ট্রান্সফরমার মডেল-ভিত্তিক নিউরাল নেটওয়ার্ক আর্কিটেকচার ব্যবহার করা হয়; যা দিয়ে খুব দক্ষতার সঙ্গে পাঠ্য, অডিও, ভিডিওর মতো বিভিন্ন ডেটা প্রক্রিয়া করতে পারে জেমিনি।
জেমিনির ট্রান্সফরমার ডিকোডারে দক্ষ মেকানিক্স অন্তর্ভুক্ত করেছে গুগল ডিপমাইন্ড। এর ফলে, নানা পদ্ধতিতে লম্বা গল্প বর্ণনা ও সৃষ্টিতে সুবিধা হবে।
জেমিনির গ্রাফিক্স প্রসেসিং ইউনিটের (GPU) জন্য Nvidia’র বিখ্যাত H100 চিপ ব্যবহার করেছে গুগল। এটি মূলত, জেনারেটিভ এআইয়ের জন্য তৈরি করা হয়েছে। ডেটা সেন্টার থেকে মোবাইল সবেতেই কাজ করতে পারবে জেমিনি। গুগলের নতুন এআই মডেল জেমিনি আলট্রার সবচেয়ে বড় কৃতিত্ব হলো, এটি প্রথম ভাষা যা ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ অ্যান্ডারস্টানডিং (MMLU) পরীক্ষাকে অতিক্রম করেছে।
এই পরীক্ষাগুলোর সময় জেমিনি আলট্রা ও মানব বিশেষজ্ঞদের ৫৭টি বিভিন্ন ক্ষেত্রে সমস্যা সমাধানের কাজ উপস্থাপন করা হয়েছে। যার মধ্যে গণিত এবং পদার্থবিদ্যা থেকে শুরু করে ওষুধ, আইন এবং নীতিশাস্ত্র পর্যন্ত বিভিন্ন বিষয় ছিল। ফলাফল অনুযায়ী জেমিনি আলট্রা ৯০ শতাংশ এবং মানব বিশেষজ্ঞরা ৮৯ দশমিক ৭ শতাংশ স্কোর করে।
গুগলের জেমিনি এআই সম্পর্কে আরো জানতে এই লিঙ্কে ক্লিক করুন।
জেমিনির এআইয়ের অসুবিধা, যে সমাধান দিচ্ছে গুগল
লার্জ ল্যাঙ্গুয়েজ মডেলের প্রধান অসুবিধাগুলোর মধ্যে একটি হলো পক্ষপাতমূলক ও ক্ষতিকারক বিষয়বস্তু তৈরি করার সম্ভাবনা। কিন্তু গুগলের LLM-এর কঠোর নিরাপত্তা পরীক্ষার মধ্যে দিয়ে পক্ষপাতিত্ব ও ক্ষতিকারক বিষয়বস্তুর ঝুঁকি কমিয়ে এনেছে এবং উচ্চ স্তরের নিরাপত্তা নিশ্চিত করেছে।
জেমিনির কার্যকারিতা নিশ্চিত করার জন্য, এটিকে ভাষা, ছবি, অডিও, ভিডিও এবং কোড ডোমেইনস সহ বিভিন্ন অ্যাকাডেমিক বেঞ্চমার্কে পরীক্ষা করানো হয়েছে।
জেমিনি এআই বনাম ওপেন এআইয়ের চ্যাটজিপিটি
গুগলের পক্ষ থেকে দাবি করা হয়েছে যে, জেমিনি একটি মাল্টিমডেল জেনারেটিভ এআই। অর্থাৎ ছবি, ভিডিয়ো, অডিও, ডকুমেন্ট, ইনফোগ্রাফিক, রিজনিং-সহ একাধিক বিষয় বোঝার ক্ষমতা রয়েছে জেমিনির। যদিও একই জিনিস চ্যাটজিপিটিও করতে পারে, শুধু ফারাক রয়েছে দক্ষতার।
জেমিনির অডিও স্পিচ ট্রান্সলেশনের দক্ষতা ৪০ দশমিক ১ শতাংশ। আর চ্যাটজিপিটির ২৯ শতাংশ। ইংরেজি ভিডিয়ো ক্যাপশনে জেমিনির দক্ষতা যেখানে ৬২ শতাংশ, সেখানে চ্যাটজিপিটির দক্ষতা ৫৬ শতাংশ। অন্যদিকে কোনো প্রকার ইমেজ বোঝার ক্ষমতা জেমিনি ও চ্যাটজিপিটির প্রায় একই রকমের।
বেশিরভাগ বেঞ্চমার্কে ওপেন এআইয়ের জিপিটি-৪ কে পরাজিত করেছে জেমিনি আলট্রা। তবে ব্যবধান খুব বেশি না। ওপেন এআই জিপিটি-৪ এর কাজ শেষ করে ফেলেছে এক বছর আগে এবং এখন তারা আরো উন্নত মডেল জিপিটি-৫ বাজারে আনার জন্য প্রস্তুত হচ্ছে।
গুগলের জেমিনি আলট্রা এখনো বাজারে আসেনি। হয়তো জানুয়ারিতে উদ্বোধন হবে, তবে খুব বেশিদিন শীর্ষে নাও থাকতে পারে। কারণ, জিপিটি-৫ এসে গেলে কঠিন চ্যালেঞ্জের মুখে পড়তে হবে জেমিনি আলট্রাকে।
প্রথম দেখায় জেমিনির মডেলের কর্মক্ষমতাকে বেশ চমৎকার মনে হতে পারে। এটি প্লাস্টিকের কাপের নিচে লুকিয়ে থাকা কাগজের বলকে ট্র্যাক করতে পারে। এমনকি ডট-টু-ডট দেখে জেমিনি ভবিষ্যদ্বাণীও করে ফেলে যে, এটি একটি কাঁকড়ার ছবি। এগুলি জেমিনির যুক্তির ক্ষমতার একটা প্রদর্শন, যা বছরের পর বছর ধরে গুগলের ডিপমাইন্ড এআই ল্যাবে প্রস্তুত করা হয়েছে। আর এই ক্ষমতা অন্য এআই মডেলগুলিতে নেই।
উদ্বোধনের সময় জেমিনির এমন কিছু ক্ষমতা প্রদর্শন করা হয়েছে, যা আবার চ্যাটজিপিটিরও রয়েছে। এছাড়া উদ্বোধনের সময় যে ডেমো দেখানো হয়েছে, তা রিয়েল-টাইমে বা কণ্ঠে পরিচালিত হয়নি। ডেমোতে দেয়া কণ্ঠ আগেই রেকর্ড করা ছিলো।
জেমিনি কি পারবে ওপেন এআইকে হারাতে?
গুগলের টেবিল অনুযায়ী, বিভিন্ন বেঞ্চমার্কে জিপিট-৪ কে ছাড়িয়ে গেছে জেমিনি আলট্রা (যা নীল রঙে দেখানো হয়েছে)। বিভিন্ন পরীক্ষার মধ্য দিয়ে এআই মডেলগুলোকে নিয়ে যেতেই এই বেঞ্চমার্ক তৈরি করা হয়েছে। এর মধ্যে রয়েছে মাধ্যমিক বিদ্যালয়ের পদার্থবিদ্যা, আইন ও নৈতিক পরিস্থিতির মতো বিভিন্ন পরিস্থিতির পরীক্ষা।
অবশ্য সেরা হওয়ার বিষয়ে গুগলের দাবির পাল্টা জবাব দিয়েছে ওপেন এআইয়ের মালিকানা প্রতিষ্ঠান মাইক্রোসফট। তাদের গবেষকরা নভেম্বরে মেডপ্রম্পট (Medprompt)-এর উপর একটি গবেষণা পত্র প্রকাশ করেন, যেখানে আরো ভালো ফলাফল পাওয়ার জন্য প্রম্পট ভাষার মডেল ব্যবহার করা হয়েছে। মাইক্রোসফট দাবি করছে, এই মেডপ্রম্পট ব্যবহার করে জিপিটি-৪ এর কর্মক্ষমতা উন্নত করা হয়েছে।
শেষ কথা
কৃত্রিম বুদ্ধিমত্তা নিয়ে বিশ্বের দুই জায়ান্ট তথ্যপ্রযুক্তি কোম্পানি গুগল ও মাইক্রোসফটের লড়াই এখন জমজমাট। তবে ভবিষ্যতে কোন মডেল জিতবে তা এখনও স্পষ্ট নয়। কারণ, এআইয়ের শ্রেষ্ঠত্বের সিংহাসনের দৌড় এখনো শেষ হয়নি।
তবে যেই জিতুক, সভ্যতার নতুন সংস্করণ এআই ব্যবহার করে দৈনন্দিন কর্মকাণ্ডকে অনেক মসৃণভাবে এগিয়ে নিয়ে যাচ্ছে মানুষ।