HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ 4 أشهر

D²Net: شبكة إزالة الضوضاء وإزالة التأثيرات الصوتية المتعددة المستندة إلى مشفر ثنائي الفرع ومحول مزدوج المسار

{and Ying Hu Yadong Chen Wenbing Wei Liusong Wang}

D²Net: شبكة إزالة الضوضاء وإزالة التأثيرات الصوتية المتعددة المستندة إلى مشفر ثنائي الفرع ومحول مزدوج المسار

الملخص

يُعدّ التخلص من الضوضاء وإزالة التأثيرات الصوتية المتعددة في صوت مختلط أحادي القناة ضمن بيئات صوتية معقدة مهمةً صعبةً. في هذه الورقة، نقترح شبكةً للتصفية من الضوضاء وإزالة التأثيرات الصوتية تُسمى D²Net، حيث تم تصميم مُشَفرٍ ثنائي الفرع (TBE) لاستخراج الميزات ودمجها بشكل انتقائي بدرجات تفاصيل مختلفة. علاوةً على ذلك، صممنا نموذجًا مُحَوِّلًا ثنائي المسار عالمي-محلي (GLDPT)، والذي يُدخل انتباه المُنشئ الكثيف المحلي (LDSA) في البنية ثنائية المسار لتحسين إدراك المعلومات المحلية. قمنا بتقييم النموذج المقترح D²Net وإجراء دراسات تحليلية (أبلاسيون) على مجموعتي بيانات VoiceBank+DEMAND وWHAMR!، وفي الوقت نفسه، اخترنا ثلاث أنواع من البيانات من مجموعة WHAMR! لاختبار قدرة D²Net على مهام التصفية من الضوضاء فقط، وإزالة التأثيرات الصوتية فقط، والتصفية والإزالة المتزامنتين، على التوالي. أظهرت النتائج التجريبية أن النموذج المقترح يتفوق على النماذج المقارنة، ويحقق أداءً أفضل في جميع المهام: التصفية والإزالة المتزامنتين، وإزالة التأثيرات الصوتية فقط، والتصفية من الضوضاء فقط، مع الحفاظ على عدد صغير من معاملات الشبكة.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
speech-enhancement-on-demandD²Net
CBAK: 3.18
COVL: 3.92
CSIG: 4.63
PESQ (wb): 3.27
STOI: 96

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp