हगिंग फेस ने मंगलवार को ओपन-आर 1 का निर्माण करने के लिए एक नई पहल की घोषणा की, जो डीपसेक-आर 1 मॉडल का पूरी तरह से खुला प्रजनन है। हेज फंड-समर्थित चीनी एआई फर्म ने पिछले हफ्ते सार्वजनिक डोमेन में दीपसेक-आर 1 आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल जारी किया, जिसमें सिलिकॉन वैली और नैस्डैक में शॉकवेव्स भेजे गए। एक बड़ा कारण यह था कि इस तरह के एक उन्नत और बड़े पैमाने पर एआई मॉडल, जो ओपनई के ओ 1 मॉडल से आगे निकल सकता है, अभी तक ओपन-सोर्स में जारी नहीं किया गया है। हालांकि, मॉडल पूरी तरह से खुला-स्रोत नहीं था, और गले लगाने वाले चेहरे के शोधकर्ता अब लापता टुकड़ों को खोजने की कोशिश कर रहे हैं।
क्यों हगिंग फेस बिल्डिंग ओपन-आर 1 है?
में एक ब्लॉग भेजाहगिंग फेस शोधकर्ताओं ने दीपसेक के प्रसिद्ध एआई मॉडल की नकल करने के पीछे अपना कारण विस्तृत किया। अनिवार्य रूप से, डीपसेक-आर 1 वह है जिसे “ब्लैक-बॉक्स” रिलीज़ के रूप में जाना जाता है, जिसका अर्थ है कि सॉफ्टवेयर को चलाने के लिए आवश्यक कोड और अन्य संपत्ति उपलब्ध हैं, हालांकि, डेटासेट के साथ-साथ प्रशिक्षण कोड भी नहीं हैं। इसका मतलब है कि कोई भी स्थानीय रूप से एआई मॉडल को डाउनलोड और चला सकता है, लेकिन किसी मॉडल को दोहराने के लिए आवश्यक जानकारी की तरह यह संभव नहीं है।
कुछ अप्रकाशित जानकारी में बेस मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले तर्क-विशिष्ट डेटासेट शामिल हैं, प्रशिक्षण कोड का उपयोग हाइपरपैमीटर बनाने के लिए किया जाता है जो मॉडल को जटिल प्रश्नों को तोड़ने और संसाधित करने की अनुमति देता है, और प्रशिक्षण में उपयोग की जाने वाली गणना और डेटा ट्रेड-ऑफ प्रक्रिया।
शोधकर्ताओं ने कहा कि डीपसेक-आर 1 के पूरी तरह से खुले-स्रोत संस्करण के निर्माण के पीछे का उद्देश्य सुदृढीकरण सीखने के बढ़े हुए परिणाम के बारे में पारदर्शिता प्रदान करना और समुदाय के साथ प्रजनन योग्य अंतर्दृष्टि साझा करना है।
हगिंग फेस की ओपन-आर 1 पहल
चूंकि डीपसेक-आर 1 सार्वजनिक डोमेन में उपलब्ध है, इसलिए शोधकर्ता एआई मॉडल के कुछ पहलुओं को समझने में सक्षम थे। उदाहरण के लिए, डीपसेक-वी 3, आर 1 बनाने के लिए उपयोग किया जाने वाला बेस मॉडल, बिना किसी मानव पर्यवेक्षण के शुद्ध सुदृढीकरण सीखने के साथ बनाया गया था। हालांकि, तर्क-केंद्रित आर 1 मॉडल ने कई शोधन चरणों का उपयोग किया जो कम गुणवत्ता वाले आउटपुट को अस्वीकार करते हैं, और पॉलिश और सुसंगत उत्तर पैदा करते हैं।
ऐसा करने के लिए, गले लगाने वाले चेहरे के शोधकर्ताओं ने तीन-चरणीय योजना विकसित की है। सबसे पहले, R1 का एक आसुत संस्करण इसके डेटासेट का उपयोग करके बनाया जाएगा। फिर, शोधकर्ता शुद्ध सुदृढीकरण सीखने के पैटर्न को दोहराने की कोशिश करेंगे, और फिर शोधकर्ताओं को R1 के साथ सममूल्य पर प्रतिक्रियाओं को समायोजित करने तक फाइन-ट्यूनिंग और आगे सुदृढीकरण सीखने की निगरानी शामिल होगी।
R1 मॉडल के साथ-साथ प्रशिक्षण चरणों को दूर करने से प्राप्त सिंथेटिक डेटासेट को फिर ओपन-सोर्स समुदाय को जारी किया जाएगा ताकि डेवलपर्स को मौजूदा बड़े भाषा मॉडल (LLMs) को केवल ठीक-ट्यूनिंग द्वारा तर्क मॉडल में बदलने की अनुमति मिल सके।
विशेष रूप से, हगिंग फेस ने लामा 3 बी एआई मॉडल को डिस्टिल करने के लिए एक समान प्रक्रिया का उपयोग किया था ताकि यह दिखाया जा सके कि टेस्ट टाइम कंप्यूट (जिसे इन्फ्रेंस टाइम कम्प्यूट के रूप में भी जाना जाता है) में छोटे भाषा मॉडल को महत्वपूर्ण रूप से बढ़ाया जा सकता है।

Shivani Kumari is the founder of Niollo.in, where she shares her expertise on crypto and home appliances. With a passion for simplifying complex topics, Shivani creates engaging and informative blog posts to help readers make better decisions in the digital and home spaces.