HyperAIHyperAI
منذ 11 أيام

CWS-PResUNet: فصل مصادر الموسيقى باستخدام ResUNet يراعي الطور الفرعي حسب القناة

Haohe Liu, Qiuqiang Kong, Jiafeng Liu
CWS-PResUNet: فصل مصادر الموسيقى باستخدام ResUNet يراعي الطور الفرعي حسب القناة
الملخص

أظهرت تقنية فصل مصادر الصوت الموسيقي (MSS) تقدماً ملحوظاً في السنوات الأخيرة بفضل النماذج القائمة على التعلم العميق. تقوم العديد من نماذج MSS بفصل الإشارات على مخططات الطيف (spectrograms) من خلال تقدير أقنعة النسبة المقيدة (bounded ratio masks)، مع إعادة استخدام مراحل الإشارة المختلطة. عند استخدام الشبكات العصبية التلافيفية (CNN)، تُشارك الأوزان عادةً داخل مخطط الطيف أثناء التلافيف، بغض النظر عن الاختلافات في الأنماط بين نطاقات التردد. في هذه الدراسة، نقترح نموذجاً جديداً لـ MSS يُسمى ResUNet ذا الوعي بالمرحلة الفرعية حسب القناة (CWS-PResUNet)، والذي يُفكك الإشارات إلى نطاقات فرعية ويُقدّر قناع النسبة المثالي العقدي غير المقيد (cIRM) لكل مصدر. يستخدم CWS-PResUNet ميزة الفرعية حسب القناة (CWS) لتقليل مشاركة الأوزان العالمية غير الضرورية على مخطط الطيف، وبالتالي تقليل استهلاك الموارد الحسابية والذاكرة. ويُمكن للتكلفة الحسابية والذاكرة المُوفَّرة أن تُسمح بتوسيع حجم النموذج بشكل أكبر. على مجموعة اختبار MUSDB18HQ، قمنا بتطوير نموذج CWS-PResUNet بعمق 276 طبقة، وحقق أداءً متفوّقاً على مستوى الحالة الحالية (SoTA) في فصل الأصوات، بتحصيل درجة نسبة الإشارة إلى التشويش (SDR) تبلغ 8.92. وبالجمع بين CWS-PResUNet وDemucs، يُصنف نظام ByteMSS في المرتبة الثانية بالنسبة لدرجة الأصوات، والمرتبة الخامسة متوسطة على مستوى جميع المعايير في مسار البيانات التدريبية المحدودة لتحدي مزج الموسيقى (MDX) لعام 2021 ضمن مؤتمر ISMIR. يُمكن الوصول إلى الكود والنموذج المُدرّب مسبقاً عبر الرابط التالي: https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet

CWS-PResUNet: فصل مصادر الموسيقى باستخدام ResUNet يراعي الطور الفرعي حسب القناة | أحدث الأوراق البحثية | HyperAI