HyperAIHyperAI
منذ 16 أيام

فصل مصادر الموسيقى المستند إلى إطار عميق خفيف الوزن (DTTNET: DUAL-PATH TFC-TDF UNET)

Junyu Chen, Susmitha Vekkot, Pancham Shukla
فصل مصادر الموسيقى المستند إلى إطار عميق خفيف الوزن (DTTNET: DUAL-PATH TFC-TDF UNET)
الملخص

تهدف فصل مصادر الموسيقى (MSS) إلى استخلاص مسارات مثل "الصوت"، و"الطبول"، و"الباص"، و"الآخرون" من مقطع موسيقي مختلط. وعلى الرغم من النتائج المبهرة التي حققتها الأساليب القائمة على التعلم العميق، إلا أن هناك اتجاهًا متصاعدًا نحو نماذج أكبر حجمًا. في هذا البحث، نقدّم معمارية جديدة وخفيفة الوزن تُسمى DTTNet، والتي تعتمد على وحدة المسار المزدوج (Dual-Path Module) وعمليات التConvolution الزمنية-الترددية الموزعة زمنيًا (Time-Frequency Convolutions Time-Distributed Fully-connected UNet) (TFC-TDF UNet). تحقق DTTNet أداءً بلغ 10.12 ديسيبل في معيار cSDR للصوت، مقارنة بـ 10.01 ديسيبل المسجلة لنموذج Bandsplit RNN (BSRNN)، مع تقليل بنسبة 86.7٪ في عدد المعلمات. كما قمنا بتقييم الأداء المخصص لأنماط صوتية معقدة، بالإضافة إلى تقييم قدرة النموذج على التعميم على مجموعات صوتية متنوعة.

فصل مصادر الموسيقى المستند إلى إطار عميق خفيف الوزن (DTTNET: DUAL-PATH TFC-TDF UNET) | أحدث الأوراق البحثية | HyperAI