D²Net: شبكة إزالة الضوضاء وإزالة التأثيرات الصوتية المتعددة المستندة إلى مشفر ثنائي الفرع ومحول مزدوج المسار

يُعدّ التخلص من الضوضاء وإزالة التأثيرات الصوتية المتعددة في صوت مختلط أحادي القناة ضمن بيئات صوتية معقدة مهمةً صعبةً. في هذه الورقة، نقترح شبكةً للتصفية من الضوضاء وإزالة التأثيرات الصوتية تُسمى D²Net، حيث تم تصميم مُشَفرٍ ثنائي الفرع (TBE) لاستخراج الميزات ودمجها بشكل انتقائي بدرجات تفاصيل مختلفة. علاوةً على ذلك، صممنا نموذجًا مُحَوِّلًا ثنائي المسار عالمي-محلي (GLDPT)، والذي يُدخل انتباه المُنشئ الكثيف المحلي (LDSA) في البنية ثنائية المسار لتحسين إدراك المعلومات المحلية. قمنا بتقييم النموذج المقترح D²Net وإجراء دراسات تحليلية (أبلاسيون) على مجموعتي بيانات VoiceBank+DEMAND وWHAMR!، وفي الوقت نفسه، اخترنا ثلاث أنواع من البيانات من مجموعة WHAMR! لاختبار قدرة D²Net على مهام التصفية من الضوضاء فقط، وإزالة التأثيرات الصوتية فقط، والتصفية والإزالة المتزامنتين، على التوالي. أظهرت النتائج التجريبية أن النموذج المقترح يتفوق على النماذج المقارنة، ويحقق أداءً أفضل في جميع المهام: التصفية والإزالة المتزامنتين، وإزالة التأثيرات الصوتية فقط، والتصفية من الضوضاء فقط، مع الحفاظ على عدد صغير من معاملات الشبكة.