HyperAIHyperAI
منذ 15 أيام

SPGM: تفضيل الميزات المحلية لتحسين أداء فصل الصوت

Jia Qi Yip, Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Dianwen Ng, Eng Siong Chng, Bin Ma
SPGM: تفضيل الميزات المحلية لتحسين أداء فصل الصوت
الملخص

يُعدّ الممر المزدوج (Dual-path) معمارية شائعة في نماذج فصل الصوت (مثل Sepformer)، حيث يُقسّم التسلسل الطويل إلى كتل متداخلة، لتمكين النماذج داخل الكتل (intra-blocks) وخارجها (inter-blocks) من معالجة الخصائص المحلية داخل الكتلة والروابط العالمية بين الكتل بشكل منفصل. ومع ذلك، تبيّن أن المكونات الخارجية (inter-blocks)، التي تمثل نصف عدد المعاملات في النموذج المزدوج، تسهم بشكل ضئيل في الأداء العام. لذا، نقترح كتلة التحكم العالمي الأحادية الممر (Single-Path Global Modulation, SPGM) كبديل للمكونات الخارجية. يُسمّى هذا البناء باسمه نسبةً إلى هيكله الذي يتكون من وحدة تجميع عالمي خالية من المعاملات، تليها وحدة تحكم (modulation module) تتضمن فقط 2% من إجمالي معاملات النموذج. تُمكّن كتلة SPGM جميع طبقات الترانسفورمر في النموذج من التركيز حصريًا على نمذجة الخصائص المحلية، مما يجعل النموذج ككل أحادي الممر. تحقق كتلة SPGM أداءً بلغ 22.1 ديسيبل في معيار SI-SDRi على مجموعة WSJ0-2Mix و20.4 ديسيبل على Libri2Mix، ما يفوق أداء Sepformer بنسبة 0.5 ديسيبل و0.3 ديسيبل على التوالي، مع تحقيق أداء مماثل للنماذج المتطورة حديثًا (SOTA) ولكن بحد أقصى أقل بـ 8 أضعاف في عدد المعاملات. يمكن الوصول إلى النموذج والوزن المُدرّب عبر الرابط: huggingface.co/yipjiaqi/spgm

SPGM: تفضيل الميزات المحلية لتحسين أداء فصل الصوت | أحدث الأوراق البحثية | HyperAI