HyperAIHyperAI

Command Palette

Search for a command to run...

ويفريوند موجي مُشْرِطٌ حسب المُتَكَلِّم: نحو وافِر صوتي عصبي عالمي للصوتيات غير المُعَرَّفة والظروف الصوتية غير المُسجَّلة

Dipjyoti Paul Yannis Pantazis Yannis Stylianou

الملخص

أدت التطورات الحديثة في التعلم العميق إلى تحقيق أداءً يعادل أداء البشر في توليد الكلام من متحدث واحد. ومع ذلك، لا يزال هناك قيود فيما يتعلق بجودة الصوت عند تمديد هذه النماذج إلى نماذج متعددة المتكلمين، وخاصة بالنسبة للمتكلمين غير المرئيين وظروف التسجيل غير المرئية. على سبيل المثال، يتم ضبط المُولِّدات العصبية التقليدية على المتكلم المستخدم في التدريب، وتتمتع بقدرات تعميم ضعيفة تجاه المتكلمين غير المرئيين. في هذا العمل، نقترح نسخة معدلة من WaveRNN تُعرف بـ WaveRNN المشروط بالمتكلم (SC-WaveRNN). ونستهدف تطوير مُولِّد صوتي كفؤ وشامل حتى للمتكلمين والظروف الصوتية غير المرئية. على عكس WaveRNN القياسي، يستفيد SC-WaveRNN من معلومات إضافية مقدمة على شكل مُدمجات متكلمة (speaker embeddings). وباستخدام بيانات متاحة للجمهور في التدريب، يحقق SC-WaveRNN أداءً أفضل بشكل ملحوظ مقارنة بنموذج الأساس WaveRNN من حيث المقاييس الذاتية وال موضوعية. وفي اختبار معيار جودة الصوت المُدرَج (MOS)، حقق SC-WaveRNN تحسناً بنسبة حوالي 23% في حالة المتكلم المرئي وظروف التسجيل المرئية، وبنسبة تصل إلى 95% في حالة المتكلم غير المرئي وظروف التسجيل غير المرئية. وأخيراً، قمنا بتوسيع نطاق هذا العمل من خلال تنفيذ نظام توليد الكلام من النص (TTS) متعدد المتكلمين يشبه التكيّف الصفري للمتكلم. من حيث الأداء، تم تفضيل نظامنا على النظام الأساسي لـ TTS بنسبة 60% مقابل 15.5%، وبنسبة 60.9% مقابل 32.6%، في حالات المتكلم المرئي وغير المرئي على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ويفريوند موجي مُشْرِطٌ حسب المُتَكَلِّم: نحو وافِر صوتي عصبي عالمي للصوتيات غير المُعَرَّفة والظروف الصوتية غير المُسجَّلة | مستندات | HyperAI