OverFlow: وضع التدفقات فوق المحوّلات العصبية لتحقيق نتائج أفضل في توليد الكلام النصي (TTS)

الشبكات العصبية HMM هي نوع من المحولات العصبية التي تم اقتراحها مؤخرًا لنموذج التسلسل إلى تسلسل في تحويل النص إلى كلام. تجمع هذه الشبكات بين أفضل الخصائص للتركيب الصوتي الإحصائي الكلاسيكي والتركيب الصوتي العصبي الحديث، مما يتطلب بيانات أقل وتحديثات تدريبية أقل، وهي أقل عرضة لإنتاج نتائج غير مفهومة ناجمة عن فشل التركيز العصبي. في هذا البحث، ندمج بين الشبكات العصبية HMM لتحويل النص إلى كلام والتدفقات الطبيعية لوصف التوزيع شديد الانحراف عن الجاوسية (non-Gaussian) لخصائص الكلام. النتيجة هي نموذج قوي وكامل الاحتمالية للأطوال الزمنية والخصائص الصوتية يمكن تدريبه باستخدام الأرجحية القصوى الدقيقة. أظهرت التجارب أن نظامًا يعتمد على مقترحنا يحتاج إلى تحديثات أقل من الأساليب المماثلة لإنتاج نطق دقيق وجودة كلام ذاتية قريبة من الكلام الطبيعي. يُرجى الرجوع إلى https://shivammehta25.github.io/OverFlow/ للمثيلات الصوتية والكود.注释:在阿拉伯语中,“non-Gaussian”通常翻译为“شديد الانحراف عن الجاوسية”以保持其专业性和准确性。其他术语如“neural HMMs”、“normalising flows”等则直接使用阿拉伯语中的通用译法。