HyperAIHyperAI
منذ 2 أشهر

MMDenseLSTM: مزيج فعال من الشبكات العصبية التلافيفية والمتكررة لفصل مصادر الصوت

Naoya Takahashi; Nabarun Goswami; Yuki Mitsufuji
MMDenseLSTM: مزيج فعال من الشبكات العصبية التلافيفية والمتكررة لفصل مصادر الصوت
الملخص

الشبكات العصبية العميقة أصبحت تقنية لا غنى عنها في فصل مصادر الصوت (ASS). وقد أُبلغ مؤخرًا عن استخدام نسخة من هندسة الشبكات العصبية التلافيفية تُسمى MMDenseNet بنجاح لحل مشكلة ASS المتعلقة بتقدير قيم المصادر، وتم الحصول على أفضل النتائج المعاصرة لمجموعة بيانات DSD100. لتعزيز MMDenseNet بشكل أكبر، نقترح هنا هندسة جديدة تدمج الذاكرة القصيرة والطويلة (LSTM) بمقياسات متعددة مع اتصالات قفزة لنمذجة الهياكل طويلة الأمد داخل سياق صوتي بكفاءة. تظهر نتائج التجارب أن الطريقة المقترحة تتفوق على MMDenseNet و LSTM ومزيج الشبكتين. كما أن عدد المعلمات ووقت المعالجة للنموذج المقترح أقل بكثير من تلك الخاصة بالمزيج البسيط. بالإضافة إلى ذلك، تقدم الطريقة المقترحة نتائج أفضل من تلك التي تم الحصول عليها باستخدام الأقنعة الثنائية المثالية في مهمة فصل صوت الغناء.

MMDenseLSTM: مزيج فعال من الشبكات العصبية التلافيفية والمتكررة لفصل مصادر الصوت | أحدث الأوراق البحثية | HyperAI