HyperAIHyperAI

Command Palette

Search for a command to run...

SPGM: تفضيل الميزات المحلية لتحسين أداء فصل الصوت

الملخص

يُعدّ الممر المزدوج (Dual-path) معمارية شائعة في نماذج فصل الصوت (مثل Sepformer)، حيث يُقسّم التسلسل الطويل إلى كتل متداخلة، لتمكين النماذج داخل الكتل (intra-blocks) وخارجها (inter-blocks) من معالجة الخصائص المحلية داخل الكتلة والروابط العالمية بين الكتل بشكل منفصل. ومع ذلك، تبيّن أن المكونات الخارجية (inter-blocks)، التي تمثل نصف عدد المعاملات في النموذج المزدوج، تسهم بشكل ضئيل في الأداء العام. لذا، نقترح كتلة التحكم العالمي الأحادية الممر (Single-Path Global Modulation, SPGM) كبديل للمكونات الخارجية. يُسمّى هذا البناء باسمه نسبةً إلى هيكله الذي يتكون من وحدة تجميع عالمي خالية من المعاملات، تليها وحدة تحكم (modulation module) تتضمن فقط 2% من إجمالي معاملات النموذج. تُمكّن كتلة SPGM جميع طبقات الترانسفورمر في النموذج من التركيز حصريًا على نمذجة الخصائص المحلية، مما يجعل النموذج ككل أحادي الممر. تحقق كتلة SPGM أداءً بلغ 22.1 ديسيبل في معيار SI-SDRi على مجموعة WSJ0-2Mix و20.4 ديسيبل على Libri2Mix، ما يفوق أداء Sepformer بنسبة 0.5 ديسيبل و0.3 ديسيبل على التوالي، مع تحقيق أداء مماثل للنماذج المتطورة حديثًا (SOTA) ولكن بحد أقصى أقل بـ 8 أضعاف في عدد المعاملات. يمكن الوصول إلى النموذج والوزن المُدرّب عبر الرابط: huggingface.co/yipjiaqi/spgm


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp