एनवीडिया ने सोमवार को एक नया कृत्रिम बुद्धिमत्ता (एआई) मॉडल पेश किया जो विभिन्न प्रकार के ऑडियो उत्पन्न कर सकता है और विभिन्न प्रकार की ध्वनियों को मिश्रित कर सकता है। तकनीकी दिग्गज फाउंडेशन मॉडल को फुगाटो कहते हैं, जो फाउंडेशनल जेनरेटिव ऑडियो ट्रांसफॉर्मर ओपस 1 का संक्षिप्त रूप है। जबकि बीटोवेन और सुनो जैसे ऑडियो-केंद्रित एआई प्लेटफॉर्म मौजूद हैं, कंपनी ने इस बात पर प्रकाश डाला कि फुगाटो उपयोगकर्ताओं को वांछित आउटपुट पर ग्रैनुलर नियंत्रण प्रदान करता है। एआई मॉडल विशिष्ट संकेतों के आधार पर संगीत, आवाज़ और ध्वनि के किसी भी मिश्रण को उत्पन्न या परिवर्तित कर सकता है।
एनवीडिया ने एआई ऑडियो मॉडल फुगाटो पेश किया
में एक ब्लॉग भेजाटेक दिग्गज ने अपने नए बड़े भाषा मॉडल (एलएलएम) के बारे में विस्तार से बताया। एनवीडिया ने कहा कि फुगाट्टो संगीत के टुकड़े उत्पन्न कर सकता है, किसी मौजूदा गीत से वाद्ययंत्र हटा सकता है या जोड़ सकता है, आवाज में उच्चारण या भावना बदल सकता है, और “यहां तक कि लोगों को ऐसी ध्वनियां उत्पन्न करने दे सकता है जो पहले कभी नहीं सुनी गईं।”
एआई मॉडल टेक्स्ट और ऑडियो फ़ाइलों दोनों को इनपुट के रूप में स्वीकार करता है, और उपयोगकर्ता अपने अनुरोधों को बेहतर बनाने के लिए दोनों को जोड़ सकते हैं। हुड के तहत, फाउंडेशन मॉडल का आर्किटेक्चर स्पीच मॉडलिंग, ऑडियो वोकोडिंग और ऑडियो समझ में कंपनी के पिछले काम पर आधारित है। इसका पूर्ण संस्करण 2.5 बिलियन मापदंडों का उपयोग करता है और इसे एनवीडिया डीजीएक्स सिस्टम के डेटासेट पर प्रशिक्षित किया गया था।
एनवीडिया ने इस बात पर प्रकाश डाला कि फुगाटो का निर्माण करने वाली टीम ने ब्राजील, चीन, भारत, जॉर्डन और दक्षिण कोरिया सहित विश्व स्तर पर विभिन्न देशों से सहयोग किया। कंपनी ने कहा कि विभिन्न जातीय लोगों के सहयोग ने एआई मॉडल की बहु-उच्चारण और बहुभाषी क्षमताओं को विकसित करने में भी योगदान दिया है।
एआई ऑडियो मॉडल की क्षमताओं के बारे में बात करते हुए, तकनीकी दिग्गज ने इस बात पर प्रकाश डाला कि इसमें उन ऑडियो आउटपुट प्रकारों को उत्पन्न करने की क्षमता है जिन पर इसे पूर्व-प्रशिक्षित नहीं किया गया था। एक उदाहरण पर प्रकाश डालते हुए, एनवीडिया ने कहा, “फुगाटो एक तुरही की छाल या एक सैक्सोफोन म्याऊ बना सकता है। उपयोगकर्ता जो कुछ भी वर्णन कर सकते हैं, मॉडल बना सकता है।”
इसके अतिरिक्त, फुगाट्टो कंपोज़ेबलएआरटी नामक तकनीक का उपयोग करके विशिष्ट ऑडियो क्षमताओं को जोड़ सकता है। इसके साथ, उपयोगकर्ता एआई मॉडल से दुखी भाव से फ्रेंच बोलने वाले व्यक्ति का ऑडियो तैयार करने के लिए कह सकते हैं। उपयोगकर्ता विशिष्ट निर्देशों के साथ दुःख की डिग्री और उच्चारण के भारीपन को भी नियंत्रित कर सकते हैं।
इसके अलावा, फाउंडेशन मॉडल अस्थायी प्रक्षेप, या समय के साथ बदलती ध्वनियों के साथ ऑडियो भी उत्पन्न कर सकता है। उदाहरण के लिए, उपयोगकर्ता तेज़ गड़गड़ाहट के साथ आंधी-बारिश की आवाज़ उत्पन्न कर सकते हैं जो दूर तक धुंधली हो जाती है। इन ध्वनि परिदृश्यों का प्रयोग भी किया जा सकता है, और भले ही यह ऐसी ध्वनि हो जिसे मॉडल ने पहले कभी संसाधित नहीं किया हो, यह उन्हें बना सकता है।
फिलहाल, कंपनी ने एआई मॉडल को उपयोगकर्ताओं या उद्यमों के लिए उपलब्ध कराने की कोई योजना साझा नहीं की है।
Shivani Kumari is the founder of Niollo.in, where she shares her expertise on crypto and home appliances. With a passion for simplifying complex topics, Shivani creates engaging and informative blog posts to help readers make better decisions in the digital and home spaces.