FastSpeech 2: سريع وعالي الجودة النهاية إلى النهاية نص إلى صوت

تُعد نماذج التوليد غير التكراري للصوت من النص (TTS) مثل FastSpeech أسرع بكثير في توليد الصوت مقارنة بالنماذج التكرارية السابقة، مع الحفاظ على جودة مماثلة. تعتمد عملية تدريب نموذج FastSpeech على نموذج معلم تكراري لتوقع المدة (لتقديم معلومات إضافية كمدخلات) وتقنيات استخلاص المعرفة (لتبسيط توزيع البيانات في المخرجات)، مما يُخفف من مشكلة التماثل الواحد-إلى-عدة (أي أن تغيرات متعددة في الصوت قد تتوافق مع نفس النص) في نماذج TTS. ومع ذلك، يعاني FastSpeech من عدة عيوب: 1) يُعدّ نموذج التدريب المُستند إلى المعلم والطالب معقدًا وطويل الأمد، 2) تكون المدة المستخرجة من نموذج المعلم غير دقيقة بما يكفي، كما أن مصفوفات ميل-спектروغرام المستخلصة من المعلم تعاني من فقدان المعلومات بسبب تبسيط البيانات، وكلتاهما تحدّان من جودة الصوت. في هذه الورقة، نُقدّم FastSpeech 2، الذي يعالج هذه المشكلات ويُحسّن حل مشكلة التماثل الواحد-إلى-عدة في TTS من خلال: 1) تدريب النموذج مباشرةً باستخدام القيم الحقيقية المستهدفة بدلاً من المخرجات المبسطة المُستخلصة من المعلم، و2) إدخال معلومات إضافية عن التباين في الصوت (مثل التردد الصوتي، والطاقة، والمدة الأدق) كمدخلات شرطية. بشكل محدد، نستخرج المدة، والتردد الصوتي، والطاقة مباشرةً من الموجة الصوتية، ونستخدمها كمدخلات شرطية في التدريب، ونستخدم القيم المُتنبأة بها أثناء الاستنتاج. كما قمنا بتصميم FastSpeech 2s، وهي أول محاولة لاستخلاص الموجة الصوتية مباشرةً من النص بشكل متوازٍ، مما يتيح فوائد الاستنتاج الكامل من البداية إلى النهاية. أظهرت النتائج التجريبية أن: 1) تُحقّق FastSpeech 2 تسريعًا في التدريب بنسبة 3 أضعاف مقارنةً بـ FastSpeech، كما أن FastSpeech 2s تتمتع بسرعة استنتاج أسرع؛ 2) تتفوّق FastSpeech 2 و2s على FastSpeech من حيث جودة الصوت، وقد تفوقت FastSpeech 2 حتى على النماذج التكرارية. يمكن الاستماع إلى عينات صوتية من النموذج عبر الرابط: https://speechresearch.github.io/fastspeech2/.