HyperAIHyperAI
منذ 2 أشهر

التركيب الطبيعي لـ TTS عن طريق تكييف WaveNet على توقعات مل سبيكتروغرام

Jonathan Shen; Ruoming Pang; Ron J. Weiss; Mike Schuster; Navdeep Jaitly; Zongheng Yang; Zhifeng Chen; Yu Zhang; Yuxuan Wang; RJ Skerry-Ryan; Rif A. Saurous; Yannis Agiomyrgiannakis; Yonghui Wu
التركيب الطبيعي لـ TTS عن طريق تكييف WaveNet على توقعات مل سبيكتروغرام
الملخص

يصف هذا البحث معمارية الشبكة العصبية تاكوترون 2 (Tacotron 2) لاصطناع الكلام مباشرة من النص. يتكون النظام من شبكة متتابعة للتنبؤ بالخصائص تقوم بربط تمثيلات الأحرف بطيف الميل (mel-scale spectrograms)، يليها نموذج ويف نت (WaveNet) معدل يعمل كمُحول صوتي لإنتاج أشكال الموجات في المجال الزمني من تلك الطيفيات. حقق نموذجنا درجة متوسطة للرأي (MOS) قدرها $4.53$، وهي قريبة من درجة MOS البالغة $4.58$ للكلام المسجل بشكل محترف. لتأكيد اختيارات التصميم لدينا، نقدم دراسات استبعادية لأجزاء رئيسية من نظامنا ونقيم تأثير استخدام طيف الميل بدلاً من الخصائص اللغوية ومدة النطق وخصائص $F_0$. كما نوضح أن استخدام تمثيل صوتي مضغوط يمكّن من تبسيط كبير في معمارية ويف نت (WaveNet).

التركيب الطبيعي لـ TTS عن طريق تكييف WaveNet على توقعات مل سبيكتروغرام | أحدث الأوراق البحثية | HyperAI