VALL-E एक AI मॉडल है जो 3 सेकंड के ऑडियो सैंपल के साथ किसी व्यक्ति की आवाज की नकल कर सकता है।
अपने भावनात्मक स्वर को संरक्षित करते हुए किसी भी शब्द को बोलने वाले व्यक्ति का ऑडियो उत्पन्न करने में सक्षम |
उच्च गुणवत्ता वाले टेक्स्ट-टू-स्पीच अनुप्रयोगों, भाषण संपादन और ऑडियो सामग्री निर्माण के लिए उपयोग किया जा सकता है |
एनकोडेक पर आधारित, मेटा द्वारा अक्टूबर 2022 में प्रकट किया गया एक तंत्रिका कोडेक भाषा मॉडल |
भाषण उत्पन्न करने के लिए पाठ और ध्वनिक संकेतों से असतत ऑडियो कोडेक कोड का उपयोग करता है |
7,000 वक्ताओं से 60,000 घंटे की अंग्रेजी भाषा की रिकॉर्डिंग वाली मेटा की लिब्रीलाइट लाइब्रेरी का उपयोग करके भाषण को संश्लेषित करना सिखाया गया |
तीन सेकंड का ऑडियो नमूना सफल आउटपुट के लिए VALL-E के प्रशिक्षण में प्रयुक्त आवाज के समान होना चाहिए |
सटीकता की तुलना के लिए VALL-E की वेबसाइट पर उदाहरण ऑडियो नमूने शामिल हैं |
पारंपरिक टेक्स्ट-टू-स्पीच संश्लेषण प्रणाली की तुलना में अधिक सटीक परिणाम उत्पन्न करता है |