نموذج تسلسلي مبني على انتباه ذي رأس واحد للحصول على نتائج متقدمة في مجال Switchboard

يُعتبر بشكل عام أن نماذج التعرف على الكلام من النوع التسلسلي المباشر (seq2seq) تنافس النماذج الهجينة فقط عندما تكون هناك كمية كبيرة من البيانات التدريبية، على الأقل ألف ساعة. في هذه الورقة، نُظهر أن أداءً متقدمًا جدًا في التعرف يمكن تحقيقه على قاعدة بيانات Switchboard-300 باستخدام نموذج مبني على LSTM مع انتباه ذا رأس واحد. وباستخدام نموذج لغوي يمتد عبر الجمل (cross-utterance language model)، يحقق نظامنا الأحادي المرور المستقل عن المُتحدث أداءً بنسبة خطأ كلمات (WER) 6.4% و12.5% على مجموعتي Switchboard وCallHome ضمن Hub5'00، دون الحاجة إلى قاموس نطق. وعلى الرغم من أن الت.REGULARIZATION الدقيقة وتعزيز البيانات يُعدان حاسمين لتحقيق هذا المستوى من الأداء، فإن التجارب على Switchboard-2000 تُظهر أن لا شيء يفوق فائدة المزيد من البيانات. بشكل عام، يُنتج الجمع بين مختلف تقنيات الت.REGULARIZATION ونموذج بسيط لكنه كبير النطاق حالة جديدة من الأداء القياسي، بتحقيق نسبة خطأ كلمات 4.7% و7.8% على مجموعتي Switchboard وCallHome، باستخدام بيانات SWB-2000 دون الحاجة إلى أي مصادر بيانات خارجية.