التحليل التلقائي للنصوص الكبيرة باللغة الألمانية باستخدام نماذج التعرف على الكلام من الطرف إلى الطرف عبر تقنية CTC

أظهرت أنظمة التعرف التلقائي على الكلام (ASR) من الطرف إلى الطرف مؤخرًا قدرتها على التفوق على أنظمة ASR الهجينة التقليدية المبنية على DNN/HMM. وبالإضافة إلى التحسينات المعمارية في هذه الأنظمة، زادت هذه النماذج من حيث العمق وعدد المعاملات وسعة النموذج. ومع ذلك، فإن هذه النماذج تتطلب أيضًا كميات أكبر من البيانات التدريبية لتحقيق أداء مماثل.في هذا العمل، قمنا بدمج مجموعات بيانات مفتوحة المصدر متاحة مجانًا لتمييز الكلام باللغة الألمانية، بما في ذلك بيانات صوتية لم تُعلَّم بعد، لتكوين مجموعة بيانات كبيرة تتجاوز 1700 ساعة من البيانات الصوتية. ولإعداد البيانات، اقترحنا نهجًا مزدوج المرحلة يستخدم نموذج ASR مُدرّب مسبقًا باستخدام التصنيف الزمني الاتصالي (CTC) لاستخلاص بيانات تدريب إضافية من بيانات تدريب غير مقسّمة أو غير معلمة. ثم يتم استخراج الجمل الصوتية من احتمالات التسمية الناتجة عن الشبكة المدربة باستخدام CTC، بهدف تحديد تطابق التجزئات. وباستخدام هذه البيانات التدريبية، تم تدريب نموذج هجين يعتمد على CTC والانتباه (Transformer)، والذي حقق معدل خطأ كلمة (WER) قدره 12.8٪ على مجموعة اختبار Tuda-DE، متفوقًا على المعيار السابق البالغ 14.4٪ الذي حققته أنظمة ASR الهجينة التقليدية المبنية على DNN/HMM.