ويفريوند موجي مُشْرِطٌ حسب المُتَكَلِّم: نحو وافِر صوتي عصبي عالمي للصوتيات غير المُعَرَّفة والظروف الصوتية غير المُسجَّلة

أدت التطورات الحديثة في التعلم العميق إلى تحقيق أداءً يعادل أداء البشر في توليد الكلام من متحدث واحد. ومع ذلك، لا يزال هناك قيود فيما يتعلق بجودة الصوت عند تمديد هذه النماذج إلى نماذج متعددة المتكلمين، وخاصة بالنسبة للمتكلمين غير المرئيين وظروف التسجيل غير المرئية. على سبيل المثال، يتم ضبط المُولِّدات العصبية التقليدية على المتكلم المستخدم في التدريب، وتتمتع بقدرات تعميم ضعيفة تجاه المتكلمين غير المرئيين. في هذا العمل، نقترح نسخة معدلة من WaveRNN تُعرف بـ WaveRNN المشروط بالمتكلم (SC-WaveRNN). ونستهدف تطوير مُولِّد صوتي كفؤ وشامل حتى للمتكلمين والظروف الصوتية غير المرئية. على عكس WaveRNN القياسي، يستفيد SC-WaveRNN من معلومات إضافية مقدمة على شكل مُدمجات متكلمة (speaker embeddings). وباستخدام بيانات متاحة للجمهور في التدريب، يحقق SC-WaveRNN أداءً أفضل بشكل ملحوظ مقارنة بنموذج الأساس WaveRNN من حيث المقاييس الذاتية وال موضوعية. وفي اختبار معيار جودة الصوت المُدرَج (MOS)، حقق SC-WaveRNN تحسناً بنسبة حوالي 23% في حالة المتكلم المرئي وظروف التسجيل المرئية، وبنسبة تصل إلى 95% في حالة المتكلم غير المرئي وظروف التسجيل غير المرئية. وأخيراً، قمنا بتوسيع نطاق هذا العمل من خلال تنفيذ نظام توليد الكلام من النص (TTS) متعدد المتكلمين يشبه التكيّف الصفري للمتكلم. من حيث الأداء، تم تفضيل نظامنا على النظام الأساسي لـ TTS بنسبة 60% مقابل 15.5%، وبنسبة 60.9% مقابل 32.6%، في حالات المتكلم المرئي وغير المرئي على التوالي.