HyperAIHyperAI
منذ 2 أشهر

التعرف على الكلام المحادثي عبر الهاتف باللغة الإنجليزية من قبل البشر والآلات

George Saon; Gakuto Kurata; Tom Sercu; Kartik Audhkhasi; Samuel Thomas; Dimitrios Dimitriadis; Xiaodong Cui; Bhuvana Ramabhadran; Michael Picheny; Lynn-Li Lim; Bergul Roomi; Phil Hall
التعرف على الكلام المحادثي عبر الهاتف باللغة الإنجليزية من قبل البشر والآلات
الملخص

من أكثر مهام التعرف على الكلام صعوبة هو التعرف الدقيق على التواصل بين البشر. لقد أدى التقدم في التعلم العميق خلال السنوات الأخيرة إلى تحسينات كبيرة في التعرف على الكلام في مجموعة البيانات النموذجية Switchboard (الهيئة المحادثة). انخفضت معدلات الأخطاء الكلامية التي كانت تبلغ 14% قبل بضع سنوات إلى 8.0%، ثم إلى 6.6% وأخيراً إلى 5.8%,ويعتقد الآن أنها أصبحت قريبة من الأداء البشري. هذا يثير مشكلتين - ما هو الأداء البشري بالضبط، وما مدى إمكانية خفض معدلات أخطاء التعرف على الكلام؟ تقترح ورقة بحثية حديثة من مايكروسوفت أننا قد حققنا بالفعل الأداء البشري. في محاولة للتحقق من هذا البيان، قمنا بأجراء مجموعة مستقلة من قياسات الأداء البشري على مهام محادثة اثنين ووجدنا أن الأداء البشري قد يكون أفضل بكثير مما تم الإبلاغ عنه سابقًا، مما يمنح المجتمع هدفًا أكثر صعوبة لتحقيق. نقدم أيضًا جهودنا الخاصة في هذا المجال، حيث نعرض مجموعة من التقنيات الصوتية ونماذج اللغة التي خفضت معدل الخطأ الكلامي لنظام LVCSR الهاتفي الإنجليزي الخاص بنا إلى مستوى 5.5%/10.3% على مجموعتي البيانات Switchboard/CallHome ضمن تقييم Hub5 2000، وهو - على الأقل عند كتابة هذه الورقة - نقطة تحول جديدة في الأداء (رغم أنها ليست عند المستوى الذي نقيسه للأداء البشري!). فيما يتعلق بالجانب الصوتي، نستخدم دمج النقاط لثلاثة نماذج: أولها LSTM مع عدة مدخلات سمات، والثاني LSTM تم تدريبه باستخدام التعلم متعدد المهام المعادي للمتحدث والثالث شبكة باقية (ResNet) تتكون من 25 طبقة تشبيكية ومراحل تشبيك زمني متباعدة. فيما يتعلق بنماذج اللغة، نستخدم كلمات وحروف LSTM ونماذج لغوية تشبه WaveNet ذات الطبقات التشبيكية.请注意,这里的阿拉伯语翻译中,有一些数字和百分比的表达方式可能需要根据具体的阿拉伯语出版物格式进行调整。例如,"5.8%" 可能会被写作 "5,8%"(使用逗号作为小数点)。同样,“5.5%/10.3%”也可能被写作“5,5%/10,3%”。不过,为了保持与原文的一致性,这里采用了点作为小数分隔符。如果需要更符合特定出版物的要求,请相应调整这些符号。另外,对于括号内的英文术语注释,如“Switchboard (الهيئة المحادثة)” 和 “ResNet (شبكة باقية)”,这些是为了确保信息的完整性而保留的。在正式出版时,可以根据实际情况决定是否保留这些注释。