شبكة تقوسية زمنية هيراركية مع مشفر عابر المجالات لفصل مصادر الموسيقى
في الآونة الأخيرة، أظهرت الطرق القائمة على المجال الزمني (أي، الطريقة التي تُحدِّد النمذجة مباشرةً للموجة الخام) إمكانات هائلة في فصل مصادر الصوت. في هذه الورقة، نقترح نموذجًا يُدمج بين الميزة في مجال الطيف المركب والميزة في المجال الزمني من خلال مُشفر عابر المجالات (CDE)، ويستخدم شبكة تلافيفية زمنية هيراركية (HTCN) لفصل مصادر الموسيقى المتعددة. صُمِّم CDE لتمكين الشبكة من ترميز المعلومات التفاعلية بين الميزات في المجال الزمني ومجال الطيف المركب. كما تُمكّن HTCN الشبكة من التعلم الفعّال للارتباطات الزمنية الطويلة المدى. كما قمنا بتصميم وحدة معايرة الميزة (FCU) لتطبيقها داخل HTCN، واستخدمنا استراتيجية تدريب متعددة المراحل خلال مرحلة التدريب. أظهرت دراسة الحذف (Ablation Study) فعالية كل مكون مُصمم في النموذج. أجرينا التجارب على مجموعة بيانات MUSDB18، وتبين النتائج التجريبية أن النموذج المقترح CDE-HTCN يتفوق على أفضل الطرق الحالية، ويحقق تحسنًا في متوسط درجة SDR مقداره 0.61 ديسيبل مقارنةً بالطريقة الأفضل في المجال (DEMUCS). وبشكل ملحوظ، حقق التحسن في درجة SDR لمصدر الباس ميزة كبيرة قدرها 0.91 ديسيبل.