HyperAIHyperAI

Command Palette

Search for a command to run...

تحقيق التكافؤ البشري في التعرف على الكلام المحادثي

W. Xiong J. Droppo X. Huang F. Seide M. Seltzer A. Stolcke D. Yu G. Zweig

الملخص

التعرف على الكلام في المحادثات قد شكل مهمة التعرف على الكلام الرئيسية منذ إصدار مجموعة بيانات سويتشبورد في التسعينيات. في هذا البحث، نقيس معدل الخطأ البشري على مجموعة الاختبار الشائعة NIST 2000، ونجد أن نظامنا الآلي الأحدث قد حقق مساواة البشر. يبلغ معدل الخطأ للكتاب المحترفين 5.9٪ بالنسبة لجزء سويتشبورد من البيانات، حيث يناقش أزواج الأشخاص الذين تعرفوا حديثًا موضوعًا معينًا، و11.3٪ بالنسبة لجزء كالهوم، حيث تجري الأصدقاء والأقارب محادثات مفتوحة. في كلا الحالتين، يحدد نظامنا الآلي حالة فنية جديدة ويتجاوز المعيار البشري، بتحقيق معدلات خطأ تبلغ 5.8٪ و11.0٪ على التوالي. السر في أداء نظامنا هو استخدام العديد من هياكل النماذج الصوتية القائمة على التحويل (Convolutional) والشبكات العصبية ذات الذاكرة قصيرة المدى طويلة (LSTM)، بالإضافة إلى طريقة تسوية فضائية جديدة (Spatial Smoothing Method) وتدريب صوتي خالٍ من الشبكة (Lattice-Free MMI)، وتقنيات متعددة للنمذجة اللغوية باستخدام الشبكات العصبية المتكررة (Recurrent Neural Network Language Modeling Approaches)، واستخدام منهجي لدمج النظام (System Combination).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحقيق التكافؤ البشري في التعرف على الكلام المحادثي | مستندات | HyperAI