HyperAIHyperAI

Command Palette

Search for a command to run...

MMDenseLSTM: مزيج فعال من الشبكات العصبية التلافيفية والمتكررة لفصل مصادر الصوت

Naoya Takahashi Nabarun Goswami Yuki Mitsufuji

الملخص

الشبكات العصبية العميقة أصبحت تقنية لا غنى عنها في فصل مصادر الصوت (ASS). وقد أُبلغ مؤخرًا عن استخدام نسخة من هندسة الشبكات العصبية التلافيفية تُسمى MMDenseNet بنجاح لحل مشكلة ASS المتعلقة بتقدير قيم المصادر، وتم الحصول على أفضل النتائج المعاصرة لمجموعة بيانات DSD100. لتعزيز MMDenseNet بشكل أكبر، نقترح هنا هندسة جديدة تدمج الذاكرة القصيرة والطويلة (LSTM) بمقياسات متعددة مع اتصالات قفزة لنمذجة الهياكل طويلة الأمد داخل سياق صوتي بكفاءة. تظهر نتائج التجارب أن الطريقة المقترحة تتفوق على MMDenseNet و LSTM ومزيج الشبكتين. كما أن عدد المعلمات ووقت المعالجة للنموذج المقترح أقل بكثير من تلك الخاصة بالمزيج البسيط. بالإضافة إلى ذلك، تقدم الطريقة المقترحة نتائج أفضل من تلك التي تم الحصول عليها باستخدام الأقنعة الثنائية المثالية في مهمة فصل صوت الغناء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MMDenseLSTM: مزيج فعال من الشبكات العصبية التلافيفية والمتكررة لفصل مصادر الصوت | مستندات | HyperAI