HyperAIHyperAI
منذ 2 أشهر

شبكات التوهج الزمني المتعددة التمدد الموزونة للكلمات لتنقية الكلام الأحادي المصدر من الصدى

William Ravenscroft; Stefan Goetze; Thomas Hain
شبكات التوهج الزمني المتعددة التمدد الموزونة للكلمات لتنقية الكلام الأحادي المصدر من الصدى
الملخص

إزالة الأصداء من الكلام هي مرحلة مهمة في العديد من تطبيقات تقنية الكلام. لقد حازت الأعمال الحديثة في هذا المجال على الاهتمام بشكل كبير من خلال نماذج الشبكات العصبية العميقة. الشبكات التلافيفية الزمنية (TCNs) هي نماذج تعلم عميق تم اقتراحها لنموذج التسلسلات في مهمة إزالة الأصداء من الكلام. في هذه الدراسة، يتم اقتراح التلافيف العمقية القابلة للفصل بتوسيع متعدد وموزون لاستبدال التلافيف العمقية القابلة للفصل القياسية في نماذج TCN. يتيح هذا التلافيف المقترح للشبكة التركيز ديناميكياً على معلومات محلية أكثر أو أقل في مجال الاستقبال الخاص بها في كل كتلة تلافيفية في الشبكة. وقد أظهر أن هذه الشبكة التلافيفية الزمنية المتعددة والموزونة التوسيع (WD-TCN) تتفوق باستمرار على TCN عبر مختلف تكوينات النموذج واستخدام نموذج WD-TCN هو طريقة أكثر كفاءة من حيث المعلمات لتحسين أداء النموذج مقارنة بزيادة عدد الكتل التلافيفية. أفضل تحسين في الأداء فوق النموذج الأساسي TCN هو 0.55 ديسيبل نسبة الإشارة إلى التشويه الثابتة بالحجم (SISDR)، وتحقيق أفضل أداء لنموذج WD-TCN هو 12.26 ديسيبل SISDR على مجموعة بيانات WHAMR.

شبكات التوهج الزمني المتعددة التمدد الموزونة للكلمات لتنقية الكلام الأحادي المصدر من الصدى | أحدث الأوراق البحثية | HyperAI