हगिंग फेस डीपसेक-आर 1 एआई मॉडल का पूरी तरह से ओपन-सोर्स संस्करण बनाने की कोशिश कर रहा है

हगिंग फेस ने मंगलवार को ओपन-आर 1 का निर्माण करने के लिए एक नई पहल की घोषणा की, जो डीपसेक-आर 1 मॉडल का पूरी तरह से खुला प्रजनन है। हेज फंड-समर्थित चीनी एआई फर्म ने पिछले हफ्ते सार्वजनिक डोमेन में दीपसेक-आर 1 आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल जारी किया, जिसमें सिलिकॉन वैली और नैस्डैक में शॉकवेव्स भेजे गए। एक बड़ा कारण यह था कि इस तरह के एक उन्नत और बड़े पैमाने पर एआई मॉडल, जो ओपनई के ओ 1 मॉडल से आगे निकल सकता है, अभी तक ओपन-सोर्स में जारी नहीं किया गया है। हालांकि, मॉडल पूरी तरह से खुला-स्रोत नहीं था, और गले लगाने वाले चेहरे के शोधकर्ता अब लापता टुकड़ों को खोजने की कोशिश कर रहे हैं।

क्यों हगिंग फेस बिल्डिंग ओपन-आर 1 है?

में एक ब्लॉग भेजाहगिंग फेस शोधकर्ताओं ने दीपसेक के प्रसिद्ध एआई मॉडल की नकल करने के पीछे अपना कारण विस्तृत किया। अनिवार्य रूप से, डीपसेक-आर 1 वह है जिसे “ब्लैक-बॉक्स” रिलीज़ के रूप में जाना जाता है, जिसका अर्थ है कि सॉफ्टवेयर को चलाने के लिए आवश्यक कोड और अन्य संपत्ति उपलब्ध हैं, हालांकि, डेटासेट के साथ-साथ प्रशिक्षण कोड भी नहीं हैं। इसका मतलब है कि कोई भी स्थानीय रूप से एआई मॉडल को डाउनलोड और चला सकता है, लेकिन किसी मॉडल को दोहराने के लिए आवश्यक जानकारी की तरह यह संभव नहीं है।

कुछ अप्रकाशित जानकारी में बेस मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले तर्क-विशिष्ट डेटासेट शामिल हैं, प्रशिक्षण कोड का उपयोग हाइपरपैमीटर बनाने के लिए किया जाता है जो मॉडल को जटिल प्रश्नों को तोड़ने और संसाधित करने की अनुमति देता है, और प्रशिक्षण में उपयोग की जाने वाली गणना और डेटा ट्रेड-ऑफ प्रक्रिया।

शोधकर्ताओं ने कहा कि डीपसेक-आर 1 के पूरी तरह से खुले-स्रोत संस्करण के निर्माण के पीछे का उद्देश्य सुदृढीकरण सीखने के बढ़े हुए परिणाम के बारे में पारदर्शिता प्रदान करना और समुदाय के साथ प्रजनन योग्य अंतर्दृष्टि साझा करना है।

हगिंग फेस की ओपन-आर 1 पहल

चूंकि डीपसेक-आर 1 सार्वजनिक डोमेन में उपलब्ध है, इसलिए शोधकर्ता एआई मॉडल के कुछ पहलुओं को समझने में सक्षम थे। उदाहरण के लिए, डीपसेक-वी 3, आर 1 बनाने के लिए उपयोग किया जाने वाला बेस मॉडल, बिना किसी मानव पर्यवेक्षण के शुद्ध सुदृढीकरण सीखने के साथ बनाया गया था। हालांकि, तर्क-केंद्रित आर 1 मॉडल ने कई शोधन चरणों का उपयोग किया जो कम गुणवत्ता वाले आउटपुट को अस्वीकार करते हैं, और पॉलिश और सुसंगत उत्तर पैदा करते हैं।

ऐसा करने के लिए, गले लगाने वाले चेहरे के शोधकर्ताओं ने तीन-चरणीय योजना विकसित की है। सबसे पहले, R1 का एक आसुत संस्करण इसके डेटासेट का उपयोग करके बनाया जाएगा। फिर, शोधकर्ता शुद्ध सुदृढीकरण सीखने के पैटर्न को दोहराने की कोशिश करेंगे, और फिर शोधकर्ताओं को R1 के साथ सममूल्य पर प्रतिक्रियाओं को समायोजित करने तक फाइन-ट्यूनिंग और आगे सुदृढीकरण सीखने की निगरानी शामिल होगी।

R1 मॉडल के साथ-साथ प्रशिक्षण चरणों को दूर करने से प्राप्त सिंथेटिक डेटासेट को फिर ओपन-सोर्स समुदाय को जारी किया जाएगा ताकि डेवलपर्स को मौजूदा बड़े भाषा मॉडल (LLMs) को केवल ठीक-ट्यूनिंग द्वारा तर्क मॉडल में बदलने की अनुमति मिल सके।

विशेष रूप से, हगिंग फेस ने लामा 3 बी एआई मॉडल को डिस्टिल करने के लिए एक समान प्रक्रिया का उपयोग किया था ताकि यह दिखाया जा सके कि टेस्ट टाइम कंप्यूट (जिसे इन्फ्रेंस टाइम कम्प्यूट के रूप में भी जाना जाता है) में छोटे भाषा मॉडल को महत्वपूर्ण रूप से बढ़ाया जा सकता है।

Leave a Comment

Your email address will not be published. Required fields are marked *