HyperAIHyperAI
منذ 2 أشهر

نظام التعرف على الكلام التفاعلي من مايكروسوفت لعام 2016

W. Xiong; J. Droppo; X. Huang; F. Seide; M. Seltzer; A. Stolcke; D. Yu; G. Zweig
نظام التعرف على الكلام التفاعلي من مايكروسوفت لعام 2016
الملخص

نقوم بوصف نظام التعرف على الكلام المحادثي من مايكروسوفت، حيث نجمع بين التطورات الحديثة في النماذج الصوتية واللغوية القائمة على الشبكات العصبية لتطوير الحالة الراهنة لمهمة التعرف على الكلام في سويتشبورد. مستوحىً من تقنيات التجميع في تعلم الآلة، يستخدم النظام مجموعة متنوعة من الشبكات العصبية المتكررة والمتحولة. توفر نمذجة i-vector وتدريب MMI الخالي من الجدول المكعب زيادة كبيرة في جميع هياكل النموذج الصوتي. يوفر إعادة تقييم النموذج اللغوي باستخدام عدة RNNLMs قابلة للتشغيل للأمام وللخلف، بالإضافة إلى دمج الأنظمة القائم على احتمال الكلمات، زيادة بنسبة 20%. أفضل نظام فردي يستخدم نموذج صوتي بهيكل ResNet مع إعادة تقييم RNNLM، ويحقق معدل خطأ لكلمات بنسبة 6.9% في مهمة سويتشبورد لعام 2000 التي أجرتها NIST. يبلغ معدل الخطأ للنظام المدمج 6.2%,ممثلًا تحسينًا على النتائج السابقة التي تم الإبلاغ عنها لهذه المهمة القياسية.注:在最后一个句子中,“代表”一词在阿拉伯语中通常会翻译为“ممثلًا”,但在这里为了更符合科技写作的习惯,可以考虑使用“ويعكس”来表示“反映”或“体现”的意思。因此,最后一句可以优化为:النظام المدمج يحقق معدل خطأ قدره 6.2%، ويعكس تحسينًا على النتائج السابقة التي تم الإبلاغ عنها لهذه المهمة القياسية.

نظام التعرف على الكلام التفاعلي من مايكروسوفت لعام 2016 | أحدث الأوراق البحثية | HyperAI