Command Palette
Search for a command to run...
التركيب الطبيعي لـ TTS عن طريق تكييف WaveNet على توقعات مل سبيكتروغرام
التركيب الطبيعي لـ TTS عن طريق تكييف WaveNet على توقعات مل سبيكتروغرام
Jonathan Shen¹, Ruoming Pang¹, Ron J. Weiss¹, Mike Schuster¹, Navdeep Jaitly¹, Zongheng Yang*², Zhifeng Chen¹, Yu Zhang¹, Yuxuan Wang¹, RJ Skerry-Ryan¹, Rif A. Saurous¹, Yannis Agiomyrgiannakis¹, and Yonghui Wu¹
الملخص
يصف هذا البحث معمارية الشبكة العصبية تاكوترون 2 (Tacotron 2) لاصطناع الكلام مباشرة من النص. يتكون النظام من شبكة متتابعة للتنبؤ بالخصائص تقوم بربط تمثيلات الأحرف بطيف الميل (mel-scale spectrograms)، يليها نموذج ويف نت (WaveNet) معدل يعمل كمُحول صوتي لإنتاج أشكال الموجات في المجال الزمني من تلك الطيفيات. حقق نموذجنا درجة متوسطة للرأي (MOS) قدرها 4.53، وهي قريبة من درجة MOS البالغة 4.58 للكلام المسجل بشكل محترف. لتأكيد اختيارات التصميم لدينا، نقدم دراسات استبعادية لأجزاء رئيسية من نظامنا ونقيم تأثير استخدام طيف الميل بدلاً من الخصائص اللغوية ومدة النطق وخصائص F0. كما نوضح أن استخدام تمثيل صوتي مضغوط يمكّن من تبسيط كبير في معمارية ويف نت (WaveNet).