HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات عصبية مدرّبة بالكامل على التسلسل لـ ASR تستند إلى MMI غير المبني على الشبكة

Sanjeev Khudanpur Xingyu Na Yiming Wang Daniel Povey Vimal Manohar Vijayaditya Peddinti Pegah Ghahrmani Daniel Galvez

الملخص

في هذه الورقة، نصف طريقة لإجراء التدريب التمييزي للsequences على نماذج الصوت العصبية دون الحاجة إلى التدريب المسبق باستخدام التباعد الإنتروبي على مستوى الإطارات. نستخدم النسخة الخالية من الشبكة (lattice-free) من معيار المعلومات المتبادلة القصوى (Maximum Mutual Information): LF-MMI. ولجعل عملية الحساب ممكنة، نستخدم نموذج لغوي للهُفَّات (phone n-gram) بدلًا من نموذج لغوي للكلمات. ولتقليل التكاليف الفضائية والزمنية بشكل إضافي، نحسب دالة الهدف باستخدام مخرجات الشبكة العصبية عند معدل إطارات يُعادل ثلث المعدل القياسي. تسمح هذه التغييرات لنا بتنفيذ عملية الحساب الخاصة بخوارزمية التقدم-الرجوع (forward-backward) على وحدات المعالجة الرسومية (GPUs). علاوة على ذلك، يوفر معدل الإخراج المخفض أيضًا تسريعًا كبيرًا أثناء عملية التفكيك (decoding).نقدم نتائج على 5 مهام مختلفة للاستماع الصوتي الموجه للغة الطبيعية (LVCSR)، حيث يتراوح حجم بيانات التدريب بين 100 إلى 2100 ساعة. تُظهر النماذج المدربة باستخدام LF-MMI تقليلًا نسبيًا في معدل أخطاء الكلمات بنسبة تقارب 11.5% مقارنةً بالنموذج المدرب باستخدام دالة التباعد الإنتروبي، وبنسبة تقارب 8% مقارنةً بالنموذج المدرب باستخدام دالة التباعد الإنتروبي ودالة sMBR. ويمكن تحقيق تقليل إضافي بنسبة تقارب 2.5% (بالنسبة النسبية) من خلال تحسين هذه النماذج باستخدام دالة sMBR القائمة على شبكة الكلمات (word-lattice).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp