شبكات التحويل الزمني القابلة للتشويه لفصل الكلام الأحادي الصوتي المتداخل والمتأثر بالصدى

تُستخدم نماذج فصل الكلام لعزل المتحدثين الفرديين في العديد من تطبيقات معالجة الكلام. أثبتت نماذج التعلم العميق أنها تؤدي إلى نتائج رائدة (SOTA) في عدد من معايير فصل الكلام. أحد هذه الفئات من النماذج المعروفة باسم شبكات الالتفاف الزمنية (TCNs) قد أظهرت نتائج واعدة في مهام فصل الكلام. إحدى قيود هذه النماذج هي أن لديها مجال استقبال ثابت (RF). أظهر البحث الحديث في إزالة الرنين الصوتي أن المجال الاستقبالي الأمثل لشبكة الالتفاف الزمنية يختلف حسب خصائص الرنين للإشارة الصوتية. في هذا العمل، تم اقتراح الالتفاف القابل للتغيير كحل يسمح لنماذج TCN بأن يكون لديها مجالات استقبال ديناميكية يمكنها التكيف مع أوقات الرنين المختلفة لفصل الكلام المرن. حققت النماذج المقترحة تحسينًا بمتوسط نسبة الإشارة إلى التشويه الثابتة بالقياس (SISDR) قدره 11.1 ديسيبل على الإشارة الدخولية في معيار WHAMR. تم اقتراح نموذج TCN قابل للتغيير نسبيًا بحجم 1.3 مليون معلمة والذي يحقق أداءً فاصلًا مشابهًا للنماذج الأكبر والأكثر تعقيدًا من الناحية الحسابية.