HyperAIHyperAI
منذ 2 أشهر

WaveGlow: شبكة توليدية قائمة على التدفق لتركيب الكلام

Ryan Prenger; Rafael Valle; Bryan Catanzaro
WaveGlow: شبكة توليدية قائمة على التدفق لتركيب الكلام
الملخص

في هذا البحث، نقترح WaveGlow: شبكة مستندة إلى التدفق قادرة على توليد كلام عالي الجودة من مخططات الميل الطيفية (mel-spectrograms). يجمع WaveGlow بين الأفكار المستوحاة من Glow وWaveNet لتقديم تركيب صوتي سريع وكفء وعالي الجودة، دون الحاجة إلى الانحدار الذاتي (auto-regression). يتم تنفيذ WaveGlow باستخدام شبكة واحدة فقط، ويتم تدريبها باستخدام دالة تكلفة واحدة فقط: تعظيم احتمالية البيانات التدريبية، مما يجعل إجراءات التدريب بسيطة ومستقرة. تنتج تنفيذنا باستخدام PyTorch عينات صوتية بمعدل يزيد عن 500 كيلوهرتز على معالج الرسومات NVIDIA V100. تظهر درجات الرأي المتوسطة أن جودة الصوت التي توفرها مماثلة لأفضل تنفيذ عام لـ WaveNet متاح للجمهور. سيتم توفير جميع الكود بشكل عام عبر الإنترنت.

WaveGlow: شبكة توليدية قائمة على التدفق لتركيب الكلام | أحدث الأوراق البحثية | HyperAI