HyperAIHyperAI

Command Palette

Search for a command to run...

D3Net: شبكة DenseNet متعددة التضخيم المتصلة بشكل كثيف لفصل مصادر الموسيقى

Naoya Takahashi Yuki Mitsufuji

الملخص

تتطلب فصل مصادر الموسيقى مجالًا واردًا كبيرًا لتمثيل الاعتماد طويل المدى للإشارة الصوتية. وقد عالجت الأساليب السابقة القائمة على الشبكات العصبية التلافيفية (CNN) تمثيل المجال الوارد الكبير من خلال تقليل وزيادة خريطة الميزات تسلسليًا أو باستخدام التلافيف المُمدد. في هذه الورقة، نؤكد أهمية النمو السريع لمجال الاستقبال، والنمذجة المتزامنة للبيانات متعددة الدقة في طبقة تلافيفية واحدة، ونقترح معمارية CNN جديدة تُسمى D3Net، وهي شبكة DenseNet ذات تلافيف مُمدد متعددة متصلة بكثافة. تشمل D3Net تلافيفًا مُمددًا متعددًا يمتلك عوامل تمدد مختلفة في طبقة واحدة لتمثيل دقة متعددة في نفس الوقت. وبدمج التلافيف المتعددة المُمدد مع معمارية DenseNet، تتجنب D3Net مشكلة التداخل (aliasing) التي تحدث عند دمج التلافيف المُمدد بشكل مباشر في شبكة DenseNet. أظهرت النتائج التجريبية على مجموعة بيانات MUSDB18 أداءً متقدمًا جدًا، حيث حققت متوسط نسبة الإشارة إلى التشويش (SDR) البالغة 6.01 ديسيبل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp