Command Palette
Search for a command to run...
BigVGAN: مُولِّد صوتي عصري مُتكامِل مع تدريب على نطاق واسع
BigVGAN: مُولِّد صوتي عصري مُتكامِل مع تدريب على نطاق واسع
Sang-gil Lee Wei Ping Boris Ginsburg Bryan Catanzaro Sungroh Yoon
الملخص
رغم التقدم الأخير في مُولّدات الموجة الخام القائمة على الشبكات التقابلية التوليدية (GAN)، التي تُولِّد الموجة الخام بشروط ميزات صوتية، إلا أن توليد صوت عالي الجودة لعدد كبير من المتكلمين في بيئات تسجيل متنوعة لا يزال يشكل تحديًا كبيرًا. في هذا العمل، نقدّم BigVGAN، وهو مُولِّد صوتي عام يُظهر أداءً ممتازًا في سيناريوهات خارج التوزيع دون الحاجة إلى التكييف الدقيق. نُقدّم دالة تنشيط دورية وتمثيل غير مُتداخل (anti-aliased) داخل مُولِّد GAN، مما يُضفي التحيز الاستنتاجي المطلوب لتوليد الصوت ويعزز بشكل كبير جودة الصوت الناتج. بالإضافة إلى ذلك، نُدرّب مُولِّد GAN لدينا على أكبر نطاق حتى 112 مليون معلمة، وهو ما يُعدّ حدثًا غير مسبوق في الأدبيات السابقة. ونُحدِّد ونُعالج حالات الفشل المرتبطة بتدريب GAN على نطاق واسع في مجال الصوت، مع الحفاظ على إخراج عالي الجودة دون تطبيق تقوية زائدة (over-regularization). يُظهر BigVGAN، الذي تم تدريبه فقط على بيانات كلام نقي (LibriTTS)، أداءً متفوّقًا على أفضل النماذج الحالية في ظروف صفرية (خارج التوزيع) متنوعة، بما في ذلك متكلمين غير مُشاهدَين، لغات جديدة، بيئات تسجيل مختلفة، أصوات غناء، موسيقى، وأصوات آلات موسيقية. نُعلن عن إتاحة الكود والنماذج لدينا عبر الرابط التالي: https://github.com/NVIDIA/BigVGAN