HyperAIHyperAI
منذ 16 أيام

D3Net: شبكة DenseNet متعددة التضخيم المتصلة بشكل كثيف لفصل مصادر الموسيقى

Naoya Takahashi, Yuki Mitsufuji
D3Net: شبكة DenseNet متعددة التضخيم المتصلة بشكل كثيف لفصل مصادر الموسيقى
الملخص

تتطلب فصل مصادر الموسيقى مجالًا واردًا كبيرًا لتمثيل الاعتماد طويل المدى للإشارة الصوتية. وقد عالجت الأساليب السابقة القائمة على الشبكات العصبية التلافيفية (CNN) تمثيل المجال الوارد الكبير من خلال تقليل وزيادة خريطة الميزات تسلسليًا أو باستخدام التلافيف المُمدد. في هذه الورقة، نؤكد أهمية النمو السريع لمجال الاستقبال، والنمذجة المتزامنة للبيانات متعددة الدقة في طبقة تلافيفية واحدة، ونقترح معمارية CNN جديدة تُسمى D3Net، وهي شبكة DenseNet ذات تلافيف مُمدد متعددة متصلة بكثافة. تشمل D3Net تلافيفًا مُمددًا متعددًا يمتلك عوامل تمدد مختلفة في طبقة واحدة لتمثيل دقة متعددة في نفس الوقت. وبدمج التلافيف المتعددة المُمدد مع معمارية DenseNet، تتجنب D3Net مشكلة التداخل (aliasing) التي تحدث عند دمج التلافيف المُمدد بشكل مباشر في شبكة DenseNet. أظهرت النتائج التجريبية على مجموعة بيانات MUSDB18 أداءً متقدمًا جدًا، حيث حققت متوسط نسبة الإشارة إلى التشويش (SDR) البالغة 6.01 ديسيبل.

D3Net: شبكة DenseNet متعددة التضخيم المتصلة بشكل كثيف لفصل مصادر الموسيقى | أحدث الأوراق البحثية | HyperAI