HyperAIHyperAI

Command Palette

Search for a command to run...

التركيب العصبي للكلام باستخدام شبكة التحويلات

Naihan Li; Shujie Liu; Yanqing Liu; Sheng Zhao; Ming Liu; Ming Zhou

الملخص

رغم اقتراح طرق التحويل العصبي من النص إلى الكلام (TTS) من البداية إلى النهاية (مثل Tacotron2) وتحقيقها لأداء متميز، إلا أنها لا تزال تعاني من مشكلتين: 1) الكفاءة المنخفضة أثناء التدريب والاستدلال؛ 2) صعوبة نمذجة الارتباطات الطويلة باستخدام الشبكات العصبية المتكررة (RNNs) الحالية. مستوحاةً من نجاح شبكة Transformer في الترجمة العصبية الآلية (NMT)، نقدم في هذا البحث ونكيف آلية الانتباه متعددة الرؤوس لاستبدال هياكل RNN وكذلك آلية الانتباه الأصلية في Tacotron2. بفضل آليات الانتباه الذاتي متعددة الرؤوس، يتم بناء الحالات المخفية في المشفّر والمفكك بشكل متوازي، مما يحسن كفاءة التدريب. وفي الوقت نفسه، يتم ربط أي مدخلين في أوقات مختلفة مباشرة بواسطة آلية الانتباه الذاتي، مما يحل مشكلة الارتباطات على مدى طويل بشكل فعال. باستخدام سلاسل الفونيم كمدخلات، تولد شبكتنا TTS القائمة على Transformer مخطط الطيف الصوتي الميلاني، يتبعه محول الصوت WaveNet لإنتاج النتائج الصوتية النهائية. تم إجراء تجارب لاختبار كفاءة شبكتنا الجديدة وأدائها. فيما يتعلق بالكفاءة، يمكن لشبكتنا TTS القائمة على Transformer تسريع التدريب بمقدار حوالي 4.25 مرة مقارنة بـ Tacotron2. فيما يتعلق بالأداء، أظهرت اختبارات البشر الدقيقة أن نموذجنا المقترح حقق أداءً متميزًا (تفوق على Tacotron2 بمقدار 0.048) وهو قريب جدًا من الجودة البشرية (4.39 مقابل 4.44 في معدل الرضا الصوتي).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp