BigVGAN: مُولِّد صوتي عصري مُتكامِل مع تدريب على نطاق واسع

رغم التقدم الأخير في مُولّدات الموجة الخام القائمة على الشبكات التقابلية التوليدية (GAN)، التي تُولِّد الموجة الخام بشروط ميزات صوتية، إلا أن توليد صوت عالي الجودة لعدد كبير من المتكلمين في بيئات تسجيل متنوعة لا يزال يشكل تحديًا كبيرًا. في هذا العمل، نقدّم BigVGAN، وهو مُولِّد صوتي عام يُظهر أداءً ممتازًا في سيناريوهات خارج التوزيع دون الحاجة إلى التكييف الدقيق. نُقدّم دالة تنشيط دورية وتمثيل غير مُتداخل (anti-aliased) داخل مُولِّد GAN، مما يُضفي التحيز الاستنتاجي المطلوب لتوليد الصوت ويعزز بشكل كبير جودة الصوت الناتج. بالإضافة إلى ذلك، نُدرّب مُولِّد GAN لدينا على أكبر نطاق حتى 112 مليون معلمة، وهو ما يُعدّ حدثًا غير مسبوق في الأدبيات السابقة. ونُحدِّد ونُعالج حالات الفشل المرتبطة بتدريب GAN على نطاق واسع في مجال الصوت، مع الحفاظ على إخراج عالي الجودة دون تطبيق تقوية زائدة (over-regularization). يُظهر BigVGAN، الذي تم تدريبه فقط على بيانات كلام نقي (LibriTTS)، أداءً متفوّقًا على أفضل النماذج الحالية في ظروف صفرية (خارج التوزيع) متنوعة، بما في ذلك متكلمين غير مُشاهدَين، لغات جديدة، بيئات تسجيل مختلفة، أصوات غناء، موسيقى، وأصوات آلات موسيقية. نُعلن عن إتاحة الكود والنماذج لدينا عبر الرابط التالي: https://github.com/NVIDIA/BigVGAN