HyperAIHyperAI

Command Palette

Search for a command to run...

BigVGAN: مُولِّد صوتي عصري مُتكامِل مع تدريب على نطاق واسع

Sang-gil Lee Wei Ping Boris Ginsburg Bryan Catanzaro Sungroh Yoon

الملخص

رغم التقدم الأخير في مُولّدات الموجة الخام القائمة على الشبكات التقابلية التوليدية (GAN)، التي تُولِّد الموجة الخام بشروط ميزات صوتية، إلا أن توليد صوت عالي الجودة لعدد كبير من المتكلمين في بيئات تسجيل متنوعة لا يزال يشكل تحديًا كبيرًا. في هذا العمل، نقدّم BigVGAN، وهو مُولِّد صوتي عام يُظهر أداءً ممتازًا في سيناريوهات خارج التوزيع دون الحاجة إلى التكييف الدقيق. نُقدّم دالة تنشيط دورية وتمثيل غير مُتداخل (anti-aliased) داخل مُولِّد GAN، مما يُضفي التحيز الاستنتاجي المطلوب لتوليد الصوت ويعزز بشكل كبير جودة الصوت الناتج. بالإضافة إلى ذلك، نُدرّب مُولِّد GAN لدينا على أكبر نطاق حتى 112 مليون معلمة، وهو ما يُعدّ حدثًا غير مسبوق في الأدبيات السابقة. ونُحدِّد ونُعالج حالات الفشل المرتبطة بتدريب GAN على نطاق واسع في مجال الصوت، مع الحفاظ على إخراج عالي الجودة دون تطبيق تقوية زائدة (over-regularization). يُظهر BigVGAN، الذي تم تدريبه فقط على بيانات كلام نقي (LibriTTS)، أداءً متفوّقًا على أفضل النماذج الحالية في ظروف صفرية (خارج التوزيع) متنوعة، بما في ذلك متكلمين غير مُشاهدَين، لغات جديدة، بيئات تسجيل مختلفة، أصوات غناء، موسيقى، وأصوات آلات موسيقية. نُعلن عن إتاحة الكود والنماذج لدينا عبر الرابط التالي: https://github.com/NVIDIA/BigVGAN


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp