HyperAIHyperAI
منذ 17 أيام

نموذج موحد ثنائي المرور غير تدفقي وتدفقي للتصنيف الصوتي

Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu, Chao Yang, Liyong Guo, Yaguang Hu, Lei Xie, Xin Lei
نموذج موحد ثنائي المرور غير تدفقي وتدفقي للتصنيف الصوتي
الملخص

في هذه الورقة، نقدم نهجًا ثنائي المرات جديدًا يُوحد التعرف على الكلام في الوقت الفعلي وغير الفعلي (E2E) في نموذج واحد. يعتمد نموذجنا على البنية الهجينة CTC/attention، حيث تم تعديل طبقات Conformer في المُشفِّر. ونُقدّم استراتيجية انتباه قائمة على الحُزم الديناميكية التي تسمح بطول أيّ من الاتجاهات اليمنى. أثناء الاستنتاج، يُولِّد مُفكِّك CTC احتمالات النموذج المُفضَّل (n-best) بطريقة تدفُّقية. ويمكن التحكم بتأخير الاستنتاج بسهولة من خلال تغيير حجم الحُزمة فقط. ثم يُعاد تقييم هذه الاحتمالات باستخدام مُفكِّك الانتباه للحصول على النتيجة النهائية. يؤدي هذا الإجراء الفعّال لإعادة التقييم إلى تأخير ضئيل على مستوى الجملة. أظهرت تجاربنا على مجموعة بيانات AISHELL-1 المفتوحة التي تبلغ 170 ساعة أن الطريقة المقترحة تُوحِّد النموذج التدفقي وغير التدفقي بشكل بسيط وفعال. على مجموعة اختبار AISHELL-1، حقق النموذج الموحَّد تقليلًا نسبيًا بنسبة 5.60% في معدل خطأ الحروف (CER) في التعرف على الكلام غير التدفقي مقارنة بنموذج Transformer غير التدفقي القياسي. وحقق نفس النموذج نسبة CER قدرها 5.42% مع تأخير 640 مللي ثانية في نظام تعرف على الكلام التدفقي.