شبكات عصبية مدرّبة بالكامل على التسلسل لـ ASR تستند إلى MMI غير المبني على الشبكة

في هذه الورقة، نصف طريقة لإجراء التدريب التمييزي للsequences على نماذج الصوت العصبية دون الحاجة إلى التدريب المسبق باستخدام التباعد الإنتروبي على مستوى الإطارات. نستخدم النسخة الخالية من الشبكة (lattice-free) من معيار المعلومات المتبادلة القصوى (Maximum Mutual Information): LF-MMI. ولجعل عملية الحساب ممكنة، نستخدم نموذج لغوي للهُفَّات (phone n-gram) بدلًا من نموذج لغوي للكلمات. ولتقليل التكاليف الفضائية والزمنية بشكل إضافي، نحسب دالة الهدف باستخدام مخرجات الشبكة العصبية عند معدل إطارات يُعادل ثلث المعدل القياسي. تسمح هذه التغييرات لنا بتنفيذ عملية الحساب الخاصة بخوارزمية التقدم-الرجوع (forward-backward) على وحدات المعالجة الرسومية (GPUs). علاوة على ذلك، يوفر معدل الإخراج المخفض أيضًا تسريعًا كبيرًا أثناء عملية التفكيك (decoding).نقدم نتائج على 5 مهام مختلفة للاستماع الصوتي الموجه للغة الطبيعية (LVCSR)، حيث يتراوح حجم بيانات التدريب بين 100 إلى 2100 ساعة. تُظهر النماذج المدربة باستخدام LF-MMI تقليلًا نسبيًا في معدل أخطاء الكلمات بنسبة تقارب 11.5% مقارنةً بالنموذج المدرب باستخدام دالة التباعد الإنتروبي، وبنسبة تقارب 8% مقارنةً بالنموذج المدرب باستخدام دالة التباعد الإنتروبي ودالة sMBR. ويمكن تحقيق تقليل إضافي بنسبة تقارب 2.5% (بالنسبة النسبية) من خلال تحسين هذه النماذج باستخدام دالة sMBR القائمة على شبكة الكلمات (word-lattice).