FullSubNet+: FullSubNet مع انتباه القناة باستخدام التمثيلات المعقدة للطيف لتحسين الصوت

لقد حقق FullSubNet، الذي تم اقتراحه سابقًا، أداءً متميزًا في مسابقة تقليل الضوضاء العميقة (DNS) وجذب اهتمامًا كبيرًا. ومع ذلك، ما زال يواجه مشكلات مثل عدم توافق المدخلات والمخرجات، ومعالجة خشنة لل Bands الترددية. في هذه الورقة، نقترح إطارًا مُوسّعًا لتحسين الكلام في قناة واحدة وذو زمن حقيقي يُسمّى FullSubNet+، مع تحسينات مهمة كالتالي: أولاً، قمنا بتصميم وحدة انتباه قنوات حساسة للزمن متعددة المقاييس خفيفة الوزن (MulCA)، والتي تستخدم التحويل المتعدد المقاييس والآلية الانتباه القنواتية لمساعدة الشبكة على التركيز على نطاقات ترددية أكثر تميّزًا لتقليل الضوضاء. ثانيًا، للاستفادة الكاملة من معلومات الطور في الكلام المضروب بالضوضاء، يأخذ نموذجنا جميع مخططات المقدار، والجزء الحقيقي، والجزء التخيلي للتحوّل الطيفي كمدخلات. علاوةً على ذلك، وباستبدال طبقات الذاكرة القصيرة والطويلة (LSTM) في النموذج الأصلي المغطي لجميع النطاقات بطبقات متعددة من الشبكات التصحيحية الزمنية (TCN)، صممنا وحدة أكثر كفاءة تغطي النطاق الكامل تُسمّى "مُستخرج النطاق الكامل". تُظهر النتائج التجريبية على مجموعة بيانات مسابقة DNS أداءً متفوقًا لـ FullSubNet+، حيث بلغ أداءً من الدرجة الأولى (SOTA) وتفوق على الطرق الحالية الأخرى لتحسين الكلام.