CMGAN: Conformer-Based Metric-GAN للتحسين الأحادي للكلام

في هذا العمل، نطور بشكل أكبر نموذج الشبكة التوليدية المتنافسة القائمة على الكونفورمر (CMGAN) لتحسين الكلام (SE) في المجال الزمني-الترددي (TF). تبني هذه الورقة على أعمالنا السابقة ولكنها تأخذ نظرة أكثر عمقًا من خلال إجراء دراسات تقليص مكثفة على مدخلات النموذج وخيارات تصميمه المعماري. قمنا باختبار قدرة النموذج على التعميم مع أنواع الضوضاء والتشوهات غير المعروفة بشكل صارم. قدّمنا أدلة دامغة لدعواتنا من خلال قياسات DNS-MOS واختبارات الاستماع. بدلاً من التركيز حصريًا على مهمة تنقية الكلام من الضوضاء، نوسع هذا العمل ليشمل مهام إزالة الرنين وزيادة الدقة. وهذا استلزم استكشاف تغييرات معمارية مختلفة، وبشكل خاص نقاط التمييز القياسية وتقنيات التعتيم. من الضروري الإشارة إلى أن هذا يعد أحد أوائل الأعمال التي حاولت زيادة الدقة في المجال الزمني-الترددي المعقد. أظهرت نتائجنا أن CMGAN يتفوق على الأساليب الحالية الأكثر تقدمًا في الثلاث مهام الرئيسية لتحسين الكلام: تنقية الكلام من الضوضاء، إزالة الرنين، وزيادة الدقة. على سبيل المثال، في مهمة تنقية الكلام من الضوضاء باستخدام مجموعة بيانات Voice Bank+DEMAND، حقق CMGAN أداءً ملحوظًا يفوق الأداء السابق للنماذج الأخرى، حيث بلغت درجة PESQ 3.41 ودرجة SSNR 11.10 ديسيبل. يمكن الحصول على عينات الصوت وتنفيذ CMGAN عبر الإنترنت.科技/学术术语处理:conformer-based metric generative adversarial network (CMGAN): الشبكة التوليدية المتنافسة القائمة على الكونفورمر (CMGAN)speech enhancement (SE): تحسين الكلام (SE)time-frequency (TF) domain: المجال الزمني-الترددي (TF)ablation studies: دراسات التقليصDNS-MOS measurements: قياسات DNS-MOSdereverberation: إزالة الرنينsuper-resolution: زيادة الدقةVoice Bank+DEMAND dataset: مجموعة بيانات Voice Bank+DEMANDPESQ score: درجة PESQSSNR: SSNR (Signal-to-Signal Noise Ratio)希望这些翻译和术语处理能够满足您的要求。如果有任何进一步的问题或需要调整的地方,请随时告知。