فصل مصادر الموسيقى في مجال الموجة

فصل المصدر في الموسيقى هو المهمة التي تهدف إلى عزل مساهمات، أو "الجذور" (stems)، الناتجة عن آلات موسيقية تم تسجيلها بشكل منفصل ثم ترتيبها معًا لتكوين أغنيّة. تشمل هذه المكونات الصوت البشري، والباص، والطبول، وأي تأثيرات موسيقية أخرى. على عكس العديد من مهام التوليد الصوتي حيث تحقق النماذج التي تولد الموجة الصوتية مباشرة أفضل الأداء، فإن الحد الأقصى من التقدم في مجال فصل مصادر الموسيقى يتم تحقيقه من خلال حساب قناعات (masks) على طيف المقدار (magnitude spectrum). في هذه الورقة، نقارن بين معمليّن في مجال الموجة الصوتية. نبدأ بتعديل معمارية Conv-Tasnet، التي تم تطويرها في الأصل لفصل مصادر الكلام، لكي تُطبَّق على مهمة فصل مصادر الموسيقى. وعلى الرغم من أن Conv-Tasnet يتفوّق على العديد من الطرق القائمة على الطيف، إلا أنه يعاني من تشوهات كبيرة، كما أظهرت التقييمات البشرية. لذلك، نقترح بدلاً من ذلك معمارية Demucs، وهي نموذج جديد يعتمد على الموجة الصوتية إلى الموجة الصوتية، يعتمد على هيكل U-Net وشريحة LSTM ثنائية الاتجاه. أظهرت التجارب على مجموعة بيانات MusDB أن Demucs، مع تطبيق التوسيع المناسب للبيانات، يتفوّق على جميع المعماريّات الحالية المتميزة، بما في ذلك Conv-Tasnet، بتحقيق متوسط SDR قدره 6.3 (ويمكن أن يصل إلى 6.8 عند استخدام 150 أغنية إضافية في التدريب، متفوّقًا حتى على نموذج IRM الأصلي بالنسبة لمصدر الباص). وباستخدام التطورات الحديثة في كمّية التجزئة (model quantization)، يمكن تقليل حجم Demucs إلى 120 ميغابايت دون فقدان في الدقة. كما نقدّم تقييمات بشرية تُظهر أن Demucs يتمتع بميزة كبيرة من حيث الطبيعة الطبيعية للصوت. ومع ذلك، يعاني من بعض التداخل (bleeding)، خاصة بين الصوت البشري والموسيقى الأخرى.