شبكة عصبية خالية من القناع لتحسين الصوت الأحادي

في تحسين الكلام، يُعدّ غياب الخصائص الهيكلية الواضحة في طور الكلام المستهدف سببًا في الحاجة إلى استخدام هياكل شبكات واقية ومعقدة. يبدو صعبًا تحقيق أداء تنافسي باستخدام الأساليب المباشرة وبنية شبكات بسيطة. ومع ذلك، نقترح نموذج MFNet، وهو شبكة مباشرة وبسيطة قادرة على تعيين الكلام، وكذلك تعيين الضوضاء العكسية. تُبنى هذه الشبكة عن طريق تجميع كتل المعالجة العالمية المحلية (GLFBs)، التي تجمع بين مزايا كتلة Mobileblock في المعالجة العالمية وبنية Metaformer في التفاعل المحلي. تُظهر نتائج تجاربنا أن الشبكة التي تعتمد على طريقة التعيين تتفوق على الطرق القائمة على التغطية (masking)، وأن تعيين الضوضاء العكسية مباشرة يُعدّ الحل الأمثل في البيئات ذات الضوضاء العالية. وفي مقارنة أفقية على مجموعة اختبار تحدّي تقليل الضوضاء العميقة 2020 (DNS) دون تأثيرات ارتداد، وبما نعلم، فإن MFNet يُعدّ حاليًا النموذج الرائد (SOTA) في مجال التعيين.