HyperAIHyperAI

Command Palette

Search for a command to run...

فصل مصادر الموسيقى المستند إلى إطار عميق خفيف الوزن (DTTNET: DUAL-PATH TFC-TDF UNET)

Junyu Chen Susmitha Vekkot Pancham Shukla

الملخص

تهدف فصل مصادر الموسيقى (MSS) إلى استخلاص مسارات مثل "الصوت"، و"الطبول"، و"الباص"، و"الآخرون" من مقطع موسيقي مختلط. وعلى الرغم من النتائج المبهرة التي حققتها الأساليب القائمة على التعلم العميق، إلا أن هناك اتجاهًا متصاعدًا نحو نماذج أكبر حجمًا. في هذا البحث، نقدّم معمارية جديدة وخفيفة الوزن تُسمى DTTNet، والتي تعتمد على وحدة المسار المزدوج (Dual-Path Module) وعمليات التConvolution الزمنية-الترددية الموزعة زمنيًا (Time-Frequency Convolutions Time-Distributed Fully-connected UNet) (TFC-TDF UNet). تحقق DTTNet أداءً بلغ 10.12 ديسيبل في معيار cSDR للصوت، مقارنة بـ 10.01 ديسيبل المسجلة لنموذج Bandsplit RNN (BSRNN)، مع تقليل بنسبة 86.7٪ في عدد المعلمات. كما قمنا بتقييم الأداء المخصص لأنماط صوتية معقدة، بالإضافة إلى تقييم قدرة النموذج على التعميم على مجموعات صوتية متنوعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp