HyperAIHyperAI

Command Palette

Search for a command to run...

OverFlow: وضع التدفقات فوق المحوّلات العصبية لتحقيق نتائج أفضل في توليد الكلام النصي (TTS)

Shivam Mehta Ambika Kirkland Harm Lameris Jonas Beskow Éva Székely Gustav Eje Henter

الملخص

الشبكات العصبية HMM هي نوع من المحولات العصبية التي تم اقتراحها مؤخرًا لنموذج التسلسل إلى تسلسل في تحويل النص إلى كلام. تجمع هذه الشبكات بين أفضل الخصائص للتركيب الصوتي الإحصائي الكلاسيكي والتركيب الصوتي العصبي الحديث، مما يتطلب بيانات أقل وتحديثات تدريبية أقل، وهي أقل عرضة لإنتاج نتائج غير مفهومة ناجمة عن فشل التركيز العصبي. في هذا البحث، ندمج بين الشبكات العصبية HMM لتحويل النص إلى كلام والتدفقات الطبيعية لوصف التوزيع شديد الانحراف عن الجاوسية (non-Gaussian) لخصائص الكلام. النتيجة هي نموذج قوي وكامل الاحتمالية للأطوال الزمنية والخصائص الصوتية يمكن تدريبه باستخدام الأرجحية القصوى الدقيقة. أظهرت التجارب أن نظامًا يعتمد على مقترحنا يحتاج إلى تحديثات أقل من الأساليب المماثلة لإنتاج نطق دقيق وجودة كلام ذاتية قريبة من الكلام الطبيعي. يُرجى الرجوع إلى https://shivammehta25.github.io/OverFlow/ للمثيلات الصوتية والكود.注释:在阿拉伯语中,“non-Gaussian”通常翻译为“شديد الانحراف عن الجاوسية”以保持其专业性和准确性。其他术语如“neural HMMs”、“normalising flows”等则直接使用阿拉伯语中的通用译法。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
OverFlow: وضع التدفقات فوق المحوّلات العصبية لتحقيق نتائج أفضل في توليد الكلام النصي (TTS) | مستندات | HyperAI