HyperAIHyperAI
منذ 17 أيام

شبكة عصبية خالية من القناع لتحسين الصوت الأحادي

Liang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei Ding
شبكة عصبية خالية من القناع لتحسين الصوت الأحادي
الملخص

في تحسين الكلام، يُعدّ غياب الخصائص الهيكلية الواضحة في طور الكلام المستهدف سببًا في الحاجة إلى استخدام هياكل شبكات واقية ومعقدة. يبدو صعبًا تحقيق أداء تنافسي باستخدام الأساليب المباشرة وبنية شبكات بسيطة. ومع ذلك، نقترح نموذج MFNet، وهو شبكة مباشرة وبسيطة قادرة على تعيين الكلام، وكذلك تعيين الضوضاء العكسية. تُبنى هذه الشبكة عن طريق تجميع كتل المعالجة العالمية المحلية (GLFBs)، التي تجمع بين مزايا كتلة Mobileblock في المعالجة العالمية وبنية Metaformer في التفاعل المحلي. تُظهر نتائج تجاربنا أن الشبكة التي تعتمد على طريقة التعيين تتفوق على الطرق القائمة على التغطية (masking)، وأن تعيين الضوضاء العكسية مباشرة يُعدّ الحل الأمثل في البيئات ذات الضوضاء العالية. وفي مقارنة أفقية على مجموعة اختبار تحدّي تقليل الضوضاء العميقة 2020 (DNS) دون تأثيرات ارتداد، وبما نعلم، فإن MFNet يُعدّ حاليًا النموذج الرائد (SOTA) في مجال التعيين.