HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات التوهج الزمني المتعددة التمدد الموزونة للكلمات لتنقية الكلام الأحادي المصدر من الصدى

William Ravenscroft Stefan Goetze Thomas Hain

الملخص

إزالة الأصداء من الكلام هي مرحلة مهمة في العديد من تطبيقات تقنية الكلام. لقد حازت الأعمال الحديثة في هذا المجال على الاهتمام بشكل كبير من خلال نماذج الشبكات العصبية العميقة. الشبكات التلافيفية الزمنية (TCNs) هي نماذج تعلم عميق تم اقتراحها لنموذج التسلسلات في مهمة إزالة الأصداء من الكلام. في هذه الدراسة، يتم اقتراح التلافيف العمقية القابلة للفصل بتوسيع متعدد وموزون لاستبدال التلافيف العمقية القابلة للفصل القياسية في نماذج TCN. يتيح هذا التلافيف المقترح للشبكة التركيز ديناميكياً على معلومات محلية أكثر أو أقل في مجال الاستقبال الخاص بها في كل كتلة تلافيفية في الشبكة. وقد أظهر أن هذه الشبكة التلافيفية الزمنية المتعددة والموزونة التوسيع (WD-TCN) تتفوق باستمرار على TCN عبر مختلف تكوينات النموذج واستخدام نموذج WD-TCN هو طريقة أكثر كفاءة من حيث المعلمات لتحسين أداء النموذج مقارنة بزيادة عدد الكتل التلافيفية. أفضل تحسين في الأداء فوق النموذج الأساسي TCN هو 0.55 ديسيبل نسبة الإشارة إلى التشويه الثابتة بالحجم (SISDR)، وتحقيق أفضل أداء لنموذج WD-TCN هو 12.26 ديسيبل SISDR على مجموعة بيانات WHAMR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp