تحقيق التكافؤ البشري في التعرف على الكلام المحادثي

التعرف على الكلام في المحادثات قد شكل مهمة التعرف على الكلام الرئيسية منذ إصدار مجموعة بيانات سويتشبورد في التسعينيات. في هذا البحث، نقيس معدل الخطأ البشري على مجموعة الاختبار الشائعة NIST 2000، ونجد أن نظامنا الآلي الأحدث قد حقق مساواة البشر. يبلغ معدل الخطأ للكتاب المحترفين 5.9٪ بالنسبة لجزء سويتشبورد من البيانات، حيث يناقش أزواج الأشخاص الذين تعرفوا حديثًا موضوعًا معينًا، و11.3٪ بالنسبة لجزء كالهوم، حيث تجري الأصدقاء والأقارب محادثات مفتوحة. في كلا الحالتين، يحدد نظامنا الآلي حالة فنية جديدة ويتجاوز المعيار البشري، بتحقيق معدلات خطأ تبلغ 5.8٪ و11.0٪ على التوالي. السر في أداء نظامنا هو استخدام العديد من هياكل النماذج الصوتية القائمة على التحويل (Convolutional) والشبكات العصبية ذات الذاكرة قصيرة المدى طويلة (LSTM)، بالإضافة إلى طريقة تسوية فضائية جديدة (Spatial Smoothing Method) وتدريب صوتي خالٍ من الشبكة (Lattice-Free MMI)، وتقنيات متعددة للنمذجة اللغوية باستخدام الشبكات العصبية المتكررة (Recurrent Neural Network Language Modeling Approaches)، واستخدام منهجي لدمج النظام (System Combination).