अलीबाबा की क्वेन अनुसंधान टीम ने पूर्वावलोकन में एक और ओपन-सोर्स कृत्रिम बुद्धिमत्ता (एआई) मॉडल जारी किया है। QVQ-72B नाम दिया गया, यह एक दृष्टि-आधारित तर्क मॉडल है जो छवियों से दृश्य जानकारी का विश्लेषण कर सकता है और उनके पीछे के संदर्भ को समझ सकता है। तकनीकी दिग्गज ने एआई मॉडल के बेंचमार्क स्कोर भी साझा किए हैं और इस बात पर प्रकाश डाला है कि एक विशिष्ट परीक्षण पर, यह ओपनएआई के ओ1 मॉडल से बेहतर प्रदर्शन करने में सक्षम था। विशेष रूप से, अलीबाबा ने हाल ही में कई ओपन-सोर्स एआई मॉडल जारी किए हैं, जिनमें QwQ-32B और मार्को-ओ1 तर्क-केंद्रित बड़े भाषा मॉडल (एलएलएम) शामिल हैं।
अलीबाबा का विज़न-आधारित QVQ-72B AI मॉडल लॉन्च किया गया
आलिंगनशील चेहरे में प्रविष्टिअलीबाबा की क्वेन टीम ने नए ओपन-सोर्स एआई मॉडल के बारे में विस्तार से बताया। इसे एक प्रायोगिक अनुसंधान मॉडल बताते हुए, शोधकर्ताओं ने इस बात पर प्रकाश डाला कि QVQ-72B उन्नत दृश्य तर्क क्षमताओं के साथ आता है। दिलचस्प बात यह है कि ये प्रदर्शन की दो अलग-अलग शाखाएँ हैं, जिन्हें शोधकर्ताओं ने इस मॉडल में संयोजित किया है।
विज़न-आधारित AI मॉडल बहुत सारे हैं। इनमें एक छवि एनकोडर शामिल है और यह उनके पीछे की दृश्य जानकारी और संदर्भ का विश्लेषण कर सकता है। इसी तरह, तर्क-केंद्रित मॉडल जैसे कि o1 और QwQ-32B परीक्षण-समय गणना स्केलिंग क्षमताओं के साथ आते हैं जो उन्हें मॉडल के लिए प्रसंस्करण समय बढ़ाने की अनुमति देते हैं। यह मॉडल को समस्या को सुलझाने, चरण-दर-चरण तरीके से हल करने, आउटपुट का आकलन करने और सत्यापनकर्ता के विरुद्ध इसे सही करने में सक्षम बनाता है।
QVQ-72B के पूर्वावलोकन मॉडल के साथ, अलीबाबा ने इन दो कार्यात्मकताओं को संयोजित किया है। अब यह छवियों से जानकारी का विश्लेषण कर सकता है और तर्क-केंद्रित संरचनाओं का उपयोग करके जटिल प्रश्नों का उत्तर दे सकता है। टीम इस बात पर प्रकाश डालती है कि इसने मॉडल के प्रदर्शन में काफी सुधार किया है।
आंतरिक परीक्षण से प्राप्त निष्कर्षों को साझा करते हुए, शोधकर्ताओं ने दावा किया कि QVQ-72B मैथविस्टा (मिनी) बेंचमार्क में 71.4 प्रतिशत स्कोर करने में सक्षम था, जो कि o1 मॉडल (71.0) से बेहतर प्रदर्शन कर रहा था। मल्टीमॉडल मैसिव मल्टी-टास्क अंडरस्टैंडिंग (एमएमएमयू) बेंचमार्क पर भी इसे 70.3 प्रतिशत स्कोर मिलने की बात कही गई है।
बेहतर प्रदर्शन के बावजूद, कई सीमाएँ हैं, जैसा कि अधिकांश प्रायोगिक मॉडलों के मामले में है। क्वेन टीम ने कहा कि एआई मॉडल कभी-कभी विभिन्न भाषाओं को मिलाता है या अप्रत्याशित रूप से उनके बीच स्विच करता है। मॉडल में कोड-स्विचिंग मुद्दा भी प्रमुख है। इसके अतिरिक्त, मॉडल के पुनरावर्ती तर्क चक्रों में फंसने का खतरा रहता है, जिससे अंतिम आउटपुट प्रभावित होता है।
Shivani Kumari is the founder of Niollo.in, where she shares her expertise on crypto and home appliances. With a passion for simplifying complex topics, Shivani creates engaging and informative blog posts to help readers make better decisions in the digital and home spaces.