HyperAIHyperAI
منذ 16 أيام

مُحَوِّلات هَيْبْرِيدِيَّة لانفصال مصادر الموسيقى

Simon Rouard, Francisco Massa, Alexandre Défossez
مُحَوِّلات هَيْبْرِيدِيَّة لانفصال مصادر الموسيقى
الملخص

السؤال الطبيعي المُطروح في مجال فصل مصادر الموسيقى (MSS) هو ما إذا كانت المعلومات السياقية على مدى طويل مفيدة، أم أن الميزات الصوتية المحلية كافية. في مجالات أخرى، أظهرت نماذج التحويل (Transformers) القائمة على الانتباه قدرتها على دمج المعلومات عبر التسلسلات الطويلة. في هذه الدراسة، نقدّم نموذج "ديموس الهجين المُدمج بالمحولات" (HT Demucs)، وهو نموذج هجين زمني/طيفي من نوع Bi-U-Net مستوحى من نموذج Hybrid Demucs، حيث تم استبدال الطبقات الداخلية بمحول عدائي عابر المجالات (cross-domain Transformer Encoder)، يستخدم الانتباه الذاتي داخل المجال الواحد، والانتباه المتبادل بين المجالات. وعلى الرغم من أداءه الضعيف عند التدريب فقط على مجموعة MUSDB، نُظهر أنه يتفوّق على نموذج Hybrid Demucs (الذي تم تدريبه على نفس البيانات) بنسبة 0.45 ديسيبل في مؤشر SDR عند استخدام 800 أغنية تدريب إضافية. وباستخدام نوى انتباه نادرة لتوسيع مجال الاستقبال (receptive field)، وتطبيق التحسين الدقيق حسب المصدر، نحقق نتائج متميزة على مستوى الحالة الحالية (state-of-the-art) في مجموعة MUSDB عند استخدام بيانات تدريب إضافية، بتحقيق مؤشر SDR قدره 9.20 ديسيبل.

مُحَوِّلات هَيْبْرِيدِيَّة لانفصال مصادر الموسيقى | أحدث الأوراق البحثية | HyperAI