حول حدود التعرف على الكلام الإنجليزي في المحادثات

في عملنا السابق، أظهرنا أن نموذج المُشفر-المُفكِّك (encoder-decoder) ذو الرأس الواحد قادر على تحقيق نتائج متميزة في مجال التعرف على الكلام التفاعلي. وفي هذا البحث، نحسن النتائج بشكل أكبر لكل من Switchboard 300 و 2000. من خلال استخدام مُحسِّن مُحسَّن، ومتجهات متحدثين (speaker vector embeddings)، وتمثيلات كلام بديلة، نقلل من أخطاء نظام LSTM الخاص بنا في Switchboard-300 بنسبة 4% نسبية. تعويض نموذج المُفكِّك باستخدام طريقة نسبة الاحتمالات يسمح بدمج أكثر كفاءة لنموذج لغوي خارجي، ونبلغ عن معدل خطأ الكلمات (WER) قدره 5.9% و 11.5% في أجزاء SWB و CHM من Hub5'00 باستخدام نماذج LSTM بسيطة للغاية. دراستنا تأخذ أيضًا بنظر الاعتبار النموذج المطابق (conformer) المقترح حديثًا، وأنماط لغوية أكثر تقدمًا تعتمد على انتباه ذاتي (self-attention). بشكل عام، يظهر النموذج المطابق أداءً مشابهًا لنظام LSTM؛ ومع ذلك، فإن تركيبهما وفك شفرتهما باستخدام نموذج لغوي مُحسَّن يحقق رقماً قياسياً جديداً في Switchboard-300، بمعدل خطأ الكلمات (WER) قدره 5.0% و 10.0% في SWB و CHM. تم تأكيد نتائجنا أيضًا على Switchboard-2000، وأبلغنا عن مستوى جديد غير مسبوق، حيث تم الوصول تقريبًا إلى حدود المعيار المرجعي (benchmark).