SPGM: تفضيل الميزات المحلية لتحسين أداء فصل الصوت

يُعدّ الممر المزدوج (Dual-path) معمارية شائعة في نماذج فصل الصوت (مثل Sepformer)، حيث يُقسّم التسلسل الطويل إلى كتل متداخلة، لتمكين النماذج داخل الكتل (intra-blocks) وخارجها (inter-blocks) من معالجة الخصائص المحلية داخل الكتلة والروابط العالمية بين الكتل بشكل منفصل. ومع ذلك، تبيّن أن المكونات الخارجية (inter-blocks)، التي تمثل نصف عدد المعاملات في النموذج المزدوج، تسهم بشكل ضئيل في الأداء العام. لذا، نقترح كتلة التحكم العالمي الأحادية الممر (Single-Path Global Modulation, SPGM) كبديل للمكونات الخارجية. يُسمّى هذا البناء باسمه نسبةً إلى هيكله الذي يتكون من وحدة تجميع عالمي خالية من المعاملات، تليها وحدة تحكم (modulation module) تتضمن فقط 2% من إجمالي معاملات النموذج. تُمكّن كتلة SPGM جميع طبقات الترانسفورمر في النموذج من التركيز حصريًا على نمذجة الخصائص المحلية، مما يجعل النموذج ككل أحادي الممر. تحقق كتلة SPGM أداءً بلغ 22.1 ديسيبل في معيار SI-SDRi على مجموعة WSJ0-2Mix و20.4 ديسيبل على Libri2Mix، ما يفوق أداء Sepformer بنسبة 0.5 ديسيبل و0.3 ديسيبل على التوالي، مع تحقيق أداء مماثل للنماذج المتطورة حديثًا (SOTA) ولكن بحد أقصى أقل بـ 8 أضعاف في عدد المعاملات. يمكن الوصول إلى النموذج والوزن المُدرّب عبر الرابط: huggingface.co/yipjiaqi/spgm