نظام RWTH ASR لـ LibriSpeech: الهجين مقابل الانتباه -- بدون تحسين البيانات

نقدم أنظمة متطورة للاعتراف التلقائي بالكلام (ASR) تستخدم بنية هجينة قياسية تعتمد على الشبكات العصبية العميقة والنموذج الخفي الماركوفي (DNN/HMM) مقارنة بتصميم المُشفر-المُفكك القائم على الانتباه (attention-based encoder-decoder) لمهام LibriSpeech. يتم تقديم وصف مفصل للتطوير النظامي، بما في ذلك تصميم النموذج، خطط التدريب الأولي، جداول التدريب، وطرق التحسين لكل من البنية الهجينة والقائمة على الانتباه. تستخدم كلتا النظامتين LSTM ثنائية الاتجاه للنمذجة الصوتية/التشفير. بالنسبة للنمذجة اللغوية، نستخدم بنى تعتمد على LSTM و Transformer. يتم بناء جميع أنظمتنا باستخدام أدوات رويثس المفتوحة المصدر RASR و RETURNN. حسب أفضل علم المؤلفين، تعتبر النتائج التي تم الحصول عليها عند التدريب على مجموعة التدريب الكاملة لـ LibriSpeech هي الأفضل المنشورة حاليًا، سواءً للأنظمة الهجينة DNN/HMM أو الأنظمة القائمة على الانتباه. بلغ نظامنا الهجين الفردي أداءً أفضل من النتائج السابقة التي تم الحصول عليها من دمج ثمانية أنظمة فردية. يظهر مقارنتنا أن نظام DNN/HMM الهجين يتفوق بنسبة 15% نسبية في مجموعة الاختبار النظيفة وبنسبة 40% نسبية في باقي مجموعات الاختبار مقارنة بنظام الانتباه القائم على LibriSpeech 960 ساعة. بالإضافة إلى ذلك، أظهرت التجارب التي أجريت على مجموعة فرعية مخفضة بحجم 100 ساعة من كوربوس LibriSpeech للتدريب هامشًا أكبر بين البنية الهجينة DNN/HMM والبنية القائمة على الانتباه.