التركيب العصبي للكلام باستخدام شبكة التحويلات

رغم اقتراح طرق التحويل العصبي من النص إلى الكلام (TTS) من البداية إلى النهاية (مثل Tacotron2) وتحقيقها لأداء متميز، إلا أنها لا تزال تعاني من مشكلتين: 1) الكفاءة المنخفضة أثناء التدريب والاستدلال؛ 2) صعوبة نمذجة الارتباطات الطويلة باستخدام الشبكات العصبية المتكررة (RNNs) الحالية. مستوحاةً من نجاح شبكة Transformer في الترجمة العصبية الآلية (NMT)، نقدم في هذا البحث ونكيف آلية الانتباه متعددة الرؤوس لاستبدال هياكل RNN وكذلك آلية الانتباه الأصلية في Tacotron2. بفضل آليات الانتباه الذاتي متعددة الرؤوس، يتم بناء الحالات المخفية في المشفّر والمفكك بشكل متوازي، مما يحسن كفاءة التدريب. وفي الوقت نفسه، يتم ربط أي مدخلين في أوقات مختلفة مباشرة بواسطة آلية الانتباه الذاتي، مما يحل مشكلة الارتباطات على مدى طويل بشكل فعال. باستخدام سلاسل الفونيم كمدخلات، تولد شبكتنا TTS القائمة على Transformer مخطط الطيف الصوتي الميلاني، يتبعه محول الصوت WaveNet لإنتاج النتائج الصوتية النهائية. تم إجراء تجارب لاختبار كفاءة شبكتنا الجديدة وأدائها. فيما يتعلق بالكفاءة، يمكن لشبكتنا TTS القائمة على Transformer تسريع التدريب بمقدار حوالي 4.25 مرة مقارنة بـ Tacotron2. فيما يتعلق بالأداء، أظهرت اختبارات البشر الدقيقة أن نموذجنا المقترح حقق أداءً متميزًا (تفوق على Tacotron2 بمقدار 0.048) وهو قريب جدًا من الجودة البشرية (4.39 مقابل 4.44 في معدل الرضا الصوتي).