منذ 2 أشهر
MMDenseLSTM: مزيج فعال من الشبكات العصبية التلافيفية والمتكررة لفصل مصادر الصوت
Naoya Takahashi; Nabarun Goswami; Yuki Mitsufuji

الملخص
الشبكات العصبية العميقة أصبحت تقنية لا غنى عنها في فصل مصادر الصوت (ASS). وقد أُبلغ مؤخرًا عن استخدام نسخة من هندسة الشبكات العصبية التلافيفية تُسمى MMDenseNet بنجاح لحل مشكلة ASS المتعلقة بتقدير قيم المصادر، وتم الحصول على أفضل النتائج المعاصرة لمجموعة بيانات DSD100. لتعزيز MMDenseNet بشكل أكبر، نقترح هنا هندسة جديدة تدمج الذاكرة القصيرة والطويلة (LSTM) بمقياسات متعددة مع اتصالات قفزة لنمذجة الهياكل طويلة الأمد داخل سياق صوتي بكفاءة. تظهر نتائج التجارب أن الطريقة المقترحة تتفوق على MMDenseNet و LSTM ومزيج الشبكتين. كما أن عدد المعلمات ووقت المعالجة للنموذج المقترح أقل بكثير من تلك الخاصة بالمزيج البسيط. بالإضافة إلى ذلك، تقدم الطريقة المقترحة نتائج أفضل من تلك التي تم الحصول عليها باستخدام الأقنعة الثنائية المثالية في مهمة فصل صوت الغناء.