HyperAIHyperAI

Command Palette

Search for a command to run...

FastSpeech: نطق سريع، قوي وقابل للتحكم من النص إلى الكلام

Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu

الملخص

الشبكات العصبية القائمة على النهاية إلى النهاية (TTS) قد أحدثت تحسينًا كبيرًا في جودة الكلام المُولَّد. الطرق البارزة (مثل Tacotron 2) عادةً ما تبدأ بإنشاء مخطط الطيف الميلاني من النص، ومن ثم تقوم بتركيب الكلام من مخطط الطيف الميلاني باستخدام مُحَوِّل الصوت مثل WaveNet. بالمقارنة مع الأساليب التقليدية المتصلة والأساليب الإحصائية المعلمية، تعاني نماذج الشبكات العصبية القائمة على النهاية إلى النهاية من بطء سرعة الاستدلال، كما أن الكلام المُولَّد غالبًا ما يكون غير مستقر (أي يتم تخطي بعض الكلمات أو تكرارها) وقليل الخضوع للتحكم (كالتحكم في سرعة الصوت أو نغمة الكلام). في هذا البحث، نقترح شبكة تغذية أمامية جديدة قائمة على Transformer لإنشاء مخطط الطيف الميلاني بشكل متوازي لتطبيقات تحويل النص إلى كلام. بصفة خاصة، نستخرج تناسق الانتباه من نموذج معلم قائم على الكودر-الديكودر للتنبؤ بمدة الفونيمات، والتي يستخدمها محول الطول لتوسيع تسلسل الفونيمات المصدر لتتوافق مع طول تسلسل مخطط الطيف الميلاني المستهدف لإنشاء مخطط الطيف الميلاني بشكل متوازي. أظهرت التجارب التي أجريت على مجموعة بيانات LJSpeech أن نموذجنا المتوازي يطابق النماذج الذاتية الانحدارية فيما يتعلق بجودة الكلام، تقريبًا يقضي على مشكلة تخطي وتكرار الكلمات في الحالات الصعبة بشكل خاص، ويمكنه ضبط سرعة الصوت بسلاسة. وأهم من ذلك كله، بالمقارنة مع نظام تحويل النص إلى كلام القائم على Transformer ذاتي الانحدار، فإن نموذجنا يسرع إنشاء مخطط الطيف الميلاني بمقدار 270 مرة ويسرع عملية التحويل من نهاية إلى نهاية بمقدار 38 مرة. ولذلك، نطلق على نموذجنا اسم FastSpeech.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp