HyperAIHyperAI
منذ 17 أيام

SE-MelGAN — تحسين سريع للصوت مستقل عن المتكلم

Luka Chkhetiani, Levan Bejanidze
SE-MelGAN — تحسين سريع للصوت مستقل عن المتكلم
الملخص

أظهرت التطورات الحديثة في الشبكات التوليدية التنافسية (Generative Adversarial Networks) ضمن مجال توليد الصوت [3],[2] إمكانية تدريب الشبكات التوليدية التنافسية [8] بطريقة موثوقة لتصنيع موجات صوتية عالية الجودة ومتماسكة من خلال مخططات ميل-سبكتروغرام (mel-spectrograms). نقترح أن من الممكن نقل متانة نموذج MelGAN [3] في تعلّم خصائص الصوت إلى مجال تحسين الصوت وتقليل الضوضاء دون الحاجة إلى أي تعديلات على النموذج. يُظهر النهج المقترح قدرة على التعميم على مجموعات بيانات صوتية متعددة المتكلمين، وقادر على التعامل بثبات مع أنواع غير مسبوقة من الضوضاء الخلفية أثناء عملية الاستنتاج. كما نُظهر أن زيادة حجم الدفعة (batch size) في هذا النهج المحدد لا يؤدي فقط إلى تحسين جودة الصوت، بل يُسهل التعميم على مجموعات بيانات متعددة المتكلمين ويُسهم في تسريع التقارب. علاوةً على ذلك، يتفوق النهج المقترح على أفضل النماذج السابقة من نوع الشبكات التوليدية التنافسية في مجال تحسين الصوت (SEGAN [5]) في مجالين: 1. الجودة؛ 2. السرعة. إذ يعمل النهج المقترح بسرعة تزيد عن 100 مرة من السرعة الحقيقية (real-time) على وحدة معالجة الرسوميات (GPU)، وأكثر من مرتين من السرعة الحقيقية على وحدة المعالجة المركزية (CPU)، دون الحاجة إلى أي تحسينات هاردويرية، وبسرعة مماثلة لنموذج MelGAN [3].

SE-MelGAN — تحسين سريع للصوت مستقل عن المتكلم | أحدث الأوراق البحثية | HyperAI