FastSpeech: نطق سريع، قوي وقابل للتحكم من النص إلى الكلام

الشبكات العصبية القائمة على النهاية إلى النهاية (TTS) قد أحدثت تحسينًا كبيرًا في جودة الكلام المُولَّد. الطرق البارزة (مثل Tacotron 2) عادةً ما تبدأ بإنشاء مخطط الطيف الميلاني من النص، ومن ثم تقوم بتركيب الكلام من مخطط الطيف الميلاني باستخدام مُحَوِّل الصوت مثل WaveNet. بالمقارنة مع الأساليب التقليدية المتصلة والأساليب الإحصائية المعلمية، تعاني نماذج الشبكات العصبية القائمة على النهاية إلى النهاية من بطء سرعة الاستدلال، كما أن الكلام المُولَّد غالبًا ما يكون غير مستقر (أي يتم تخطي بعض الكلمات أو تكرارها) وقليل الخضوع للتحكم (كالتحكم في سرعة الصوت أو نغمة الكلام). في هذا البحث، نقترح شبكة تغذية أمامية جديدة قائمة على Transformer لإنشاء مخطط الطيف الميلاني بشكل متوازي لتطبيقات تحويل النص إلى كلام. بصفة خاصة، نستخرج تناسق الانتباه من نموذج معلم قائم على الكودر-الديكودر للتنبؤ بمدة الفونيمات، والتي يستخدمها محول الطول لتوسيع تسلسل الفونيمات المصدر لتتوافق مع طول تسلسل مخطط الطيف الميلاني المستهدف لإنشاء مخطط الطيف الميلاني بشكل متوازي. أظهرت التجارب التي أجريت على مجموعة بيانات LJSpeech أن نموذجنا المتوازي يطابق النماذج الذاتية الانحدارية فيما يتعلق بجودة الكلام، تقريبًا يقضي على مشكلة تخطي وتكرار الكلمات في الحالات الصعبة بشكل خاص، ويمكنه ضبط سرعة الصوت بسلاسة. وأهم من ذلك كله، بالمقارنة مع نظام تحويل النص إلى كلام القائم على Transformer ذاتي الانحدار، فإن نموذجنا يسرع إنشاء مخطط الطيف الميلاني بمقدار 270 مرة ويسرع عملية التحويل من نهاية إلى نهاية بمقدار 38 مرة. ولذلك، نطلق على نموذجنا اسم FastSpeech.