FullSubNet: نموذج دمج النطاق الكامل والجزئي لتحسين الصوت أحادي القناة في الوقت الفعلي

يُقدّم هذا البحث نموذجًا للدمج على نطاق كامل وعلى نطاق فرعي، يُسمّى FullSubNet، لتحسين الكلام في الوقت الفعلي من قناة واحدة. يشير مصطلح "النطاق الكامل" و"النطاق الفرعي" إلى النماذج التي تأخذ كمّيات مميزة من الميزات الطيفية الضوضائية على النطاق الكامل أو النطاق الفرعي، وتُخرِج أهداف الكلام على النطاق الكامل أو النطاق الفرعي على التوالي. يعالج النموذج على النطاق الفرعي كل تردد بشكل منفصل، حيث يتكوّن مدخله من تردد واحد وعدد من الترددات المحيطة به، ويُخرِج توقعًا لهدف الكلام النقي المقابل لتلك الترددات. تمتلك هاتان النوعان من النماذج خصائص مختلفة: فإن النموذج على النطاق الكامل قادر على التقاط السياق الطيفي الشامل والاعتماديات عبر النطاقات على مسافات طويلة، لكنه يفتقر إلى القدرة على نمذجة ثبات الإشارة وتركيز الانتباه على الأنماط الطيفية المحلية. أما النموذج على النطاق الفرعي فيكون العكس تمامًا. في النموذج المُقترح FullSubNet، نربط نموذجًا نقيًا على النطاق الكامل بنموذج نقي على النطاق الفرعي بشكل متسلسل، ونستخدم تدريبًا مشتركًا عمليًا لدمج المزايا المتميزة لهاتين النوعين من النماذج. أجرينا تجارب على مجموعة بيانات DNS Challenge (INTERSPEECH 2020) لتقييم الطريقة المقترحة. أظهرت النتائج التجريبية أن المعلومات على النطاق الكامل والمُدمجة على النطاق الفرعي مكملة لبعضها، وأن FullSubNet قادر على دمجها بشكل فعّال. علاوة على ذلك، تفوق أداء FullSubNet على أداء أفضل الطرق المصنفة في DNS Challenge (INTERSPEECH 2020).