HyperAIHyperAI
منذ 2 أشهر

تحقيق التكافؤ البشري في التعرف على الكلام المحادثي

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig
تحقيق التكافؤ البشري في التعرف على الكلام المحادثي
الملخص

التعرف على الكلام في المحادثات قد شكل مهمة التعرف على الكلام الرئيسية منذ إصدار مجموعة بيانات سويتشبورد في التسعينيات. في هذا البحث، نقيس معدل الخطأ البشري على مجموعة الاختبار الشائعة NIST 2000، ونجد أن نظامنا الآلي الأحدث قد حقق مساواة البشر. يبلغ معدل الخطأ للكتاب المحترفين 5.9٪ بالنسبة لجزء سويتشبورد من البيانات، حيث يناقش أزواج الأشخاص الذين تعرفوا حديثًا موضوعًا معينًا، و11.3٪ بالنسبة لجزء كالهوم، حيث تجري الأصدقاء والأقارب محادثات مفتوحة. في كلا الحالتين، يحدد نظامنا الآلي حالة فنية جديدة ويتجاوز المعيار البشري، بتحقيق معدلات خطأ تبلغ 5.8٪ و11.0٪ على التوالي. السر في أداء نظامنا هو استخدام العديد من هياكل النماذج الصوتية القائمة على التحويل (Convolutional) والشبكات العصبية ذات الذاكرة قصيرة المدى طويلة (LSTM)، بالإضافة إلى طريقة تسوية فضائية جديدة (Spatial Smoothing Method) وتدريب صوتي خالٍ من الشبكة (Lattice-Free MMI)، وتقنيات متعددة للنمذجة اللغوية باستخدام الشبكات العصبية المتكررة (Recurrent Neural Network Language Modeling Approaches)، واستخدام منهجي لدمج النظام (System Combination).