SCNet: شبكة ضغط نادرة لفصل مصادر الموسيقى

أحرزت الطرق القائمة على التعلم العميق تقدماً كبيراً في فصل مصادر الموسيقى. ومع ذلك، لا يزال يشكل تحدياً الحصول على نتائج جيدة مع الحفاظ على تعقيد نموذج منخفض في فصل مصادر الموسيقى على نطاق واسع جداً (super wide-band). إذ تجاهلت الدراسات السابقة الفروق بين الأشرطة الترددية أو لم تعالج بشكل كافٍ مشكلة فقدان المعلومات عند إنشاء ميزات الأشرطة الترددية. في هذا البحث، نقترح SCNet، وهي شبكة جديدة في المجال الترددي، تُفصل بشكل صريح طيف الخليط إلى عدة أشرطة ترددية، ونُدخل مشغلاً قائماً على الندرة (sparsity-based encoder) لتمثيل نطاقات ترددية مختلفة. نستخدم نسبة ضغط أعلى على الأشرطة الترددية التي تحتوي على معلومات أقل لتحسين كثافة المعلومات، ونركّز على تمثيل الأشرطة التي تحتوي على معلومات أكثر. وبهذا، يمكن تحسين أداء الفصل بشكل كبير مع استهلاك أقل للحسابات. تُظهر نتائج التجارب أن النموذج المقترح يحقق نسبة إشارة إلى تشويه (SDR) قدرها 9.0 ديسيبل على مجموعة بيانات MUSDB18-HQ دون استخدام بيانات إضافية، متفوّقاً على أحدث الطرق. وبشكل خاص، يبلغ وقت الاستدلال على المعالج المركزي (CPU) لـ SCNet 48٪ فقط من وقت الاستدلال لـ HT Demucs، أحد أحدث النماذج السابقة.