HyperAIHyperAI
منذ 16 أيام

شبكة تقوسية زمنية هيراركية مع مشفر عابر المجالات لفصل مصادر الموسيقى

{Hao Huang, Liang He, Wenzhong Yang, Yadong Chen, Ying Hu}
الملخص

في الآونة الأخيرة، أظهرت الطرق القائمة على المجال الزمني (أي، الطريقة التي تُحدِّد النمذجة مباشرةً للموجة الخام) إمكانات هائلة في فصل مصادر الصوت. في هذه الورقة، نقترح نموذجًا يُدمج بين الميزة في مجال الطيف المركب والميزة في المجال الزمني من خلال مُشفر عابر المجالات (CDE)، ويستخدم شبكة تلافيفية زمنية هيراركية (HTCN) لفصل مصادر الموسيقى المتعددة. صُمِّم CDE لتمكين الشبكة من ترميز المعلومات التفاعلية بين الميزات في المجال الزمني ومجال الطيف المركب. كما تُمكّن HTCN الشبكة من التعلم الفعّال للارتباطات الزمنية الطويلة المدى. كما قمنا بتصميم وحدة معايرة الميزة (FCU) لتطبيقها داخل HTCN، واستخدمنا استراتيجية تدريب متعددة المراحل خلال مرحلة التدريب. أظهرت دراسة الحذف (Ablation Study) فعالية كل مكون مُصمم في النموذج. أجرينا التجارب على مجموعة بيانات MUSDB18، وتبين النتائج التجريبية أن النموذج المقترح CDE-HTCN يتفوق على أفضل الطرق الحالية، ويحقق تحسنًا في متوسط درجة SDR مقداره 0.61 ديسيبل مقارنةً بالطريقة الأفضل في المجال (DEMUCS). وبشكل ملحوظ، حقق التحسن في درجة SDR لمصدر الباس ميزة كبيرة قدرها 0.91 ديسيبل.

شبكة تقوسية زمنية هيراركية مع مشفر عابر المجالات لفصل مصادر الموسيقى | أحدث الأوراق البحثية | HyperAI