HyperAIHyperAI

Command Palette

Search for a command to run...

التركيب الطبيعي لـ TTS عن طريق تكييف WaveNet على توقعات مل سبيكتروغرام

Jonathan Shen¹, Ruoming Pang¹, Ron J. Weiss¹, Mike Schuster¹, Navdeep Jaitly¹, Zongheng Yang*², Zhifeng Chen¹, Yu Zhang¹, Yuxuan Wang¹, RJ Skerry-Ryan¹, Rif A. Saurous¹, Yannis Agiomyrgiannakis¹, and Yonghui Wu¹

الملخص

يصف هذا البحث معمارية الشبكة العصبية تاكوترون 2 (Tacotron 2) لاصطناع الكلام مباشرة من النص. يتكون النظام من شبكة متتابعة للتنبؤ بالخصائص تقوم بربط تمثيلات الأحرف بطيف الميل (mel-scale spectrograms)، يليها نموذج ويف نت (WaveNet) معدل يعمل كمُحول صوتي لإنتاج أشكال الموجات في المجال الزمني من تلك الطيفيات. حقق نموذجنا درجة متوسطة للرأي (MOS) قدرها 4.534.534.53، وهي قريبة من درجة MOS البالغة 4.584.584.58 للكلام المسجل بشكل محترف. لتأكيد اختيارات التصميم لدينا، نقدم دراسات استبعادية لأجزاء رئيسية من نظامنا ونقيم تأثير استخدام طيف الميل بدلاً من الخصائص اللغوية ومدة النطق وخصائص F0F_0F0. كما نوضح أن استخدام تمثيل صوتي مضغوط يمكّن من تبسيط كبير في معمارية ويف نت (WaveNet).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التركيب الطبيعي لـ TTS عن طريق تكييف WaveNet على توقعات مل سبيكتروغرام | مستندات | HyperAI