Command Palette
Search for a command to run...
حول حدود التعرف على الكلام الإنجليزي في المحادثات
حول حدود التعرف على الكلام الإنجليزي في المحادثات
Zoltán Tüske George Saon Brian Kingsbury
الملخص
في عملنا السابق، أظهرنا أن نموذج المُشفر-المُفكِّك (encoder-decoder) ذو الرأس الواحد قادر على تحقيق نتائج متميزة في مجال التعرف على الكلام التفاعلي. وفي هذا البحث، نحسن النتائج بشكل أكبر لكل من Switchboard 300 و 2000. من خلال استخدام مُحسِّن مُحسَّن، ومتجهات متحدثين (speaker vector embeddings)، وتمثيلات كلام بديلة، نقلل من أخطاء نظام LSTM الخاص بنا في Switchboard-300 بنسبة 4% نسبية. تعويض نموذج المُفكِّك باستخدام طريقة نسبة الاحتمالات يسمح بدمج أكثر كفاءة لنموذج لغوي خارجي، ونبلغ عن معدل خطأ الكلمات (WER) قدره 5.9% و 11.5% في أجزاء SWB و CHM من Hub5'00 باستخدام نماذج LSTM بسيطة للغاية. دراستنا تأخذ أيضًا بنظر الاعتبار النموذج المطابق (conformer) المقترح حديثًا، وأنماط لغوية أكثر تقدمًا تعتمد على انتباه ذاتي (self-attention). بشكل عام، يظهر النموذج المطابق أداءً مشابهًا لنظام LSTM؛ ومع ذلك، فإن تركيبهما وفك شفرتهما باستخدام نموذج لغوي مُحسَّن يحقق رقماً قياسياً جديداً في Switchboard-300، بمعدل خطأ الكلمات (WER) قدره 5.0% و 10.0% في SWB و CHM. تم تأكيد نتائجنا أيضًا على Switchboard-2000، وأبلغنا عن مستوى جديد غير مسبوق، حيث تم الوصول تقريبًا إلى حدود المعيار المرجعي (benchmark).