التعرف على الكلام السمعي البصري باستخدام بنية هجينة CTC/الانتباه

الدراسات الحديثة في مجال التعرف على الكلام تعتمد إما على تصنيف الزمن المتصل (CTC) أو نماذج التحويل من تسلسل إلى تسلسل للاعتراف بالحروف على المستوى الفردي. يفترض CTC الاستقلال الشرطي للأحرف الفردية، بينما يمكن للنماذج القائمة على الانتباه توفير محاذاة غير متتابعة. لذلك، يمكن استخدام خسارة CTC مع نموذج قائم على الانتباه لفرض محاذاة أحادية الاتجاه وفي نفس الوقت التخلص من فرضية الاستقلال الشرطي. في هذه الورقة البحثية، نستخدم المعمارية الهجينة المقترحة حديثًا التي تجمع بين CTC والانتباه للتعرف على الكلام الصوتي-البصري في البيئات الطبيعية. حسب علمنا، هذا هو أول استخدام لمثل هذه المعمارية الهجينة للتعرف على الكلام الصوتي-البصري. نستخدم قاعدة بيانات LRS2 ونظهر أن النموذج الصوتي-البصري المقترح يؤدي إلى انخفاض مطلق بنسبة 1.3% في معدل خطأ الكلمات مقارنة بالنموذج الصوتي فقط ويعمل على تحقيق أفضل الأداء الحالي في قاعدة بيانات LRS2 (معدل خطأ الكلمات 7%). كما نلاحظ أن النموذج الصوتي-البصري يتفوق بشكل كبير على النموذج الصوتي (تحسن مطلق يصل إلى 32.9% في معدل خطأ الكلمات) لعدة أنواع مختلفة من الضوضاء مع انخفاض نسبة الإشارة إلى الضوضاء.关键词:- التعرف على الكلام (speech recognition)- تصنيف الزمن المتصل (CTC) (connectionist temporal classification)- نماذج التحويل من تسلسل إلى تسلسل (sequence-to-sequence models)- الاستقلال الشرطي (conditional independence)- محاذاة غير متتابعة (nonsequential alignments)- المعمارية الهجينة (hybrid architecture)- قاعدة بيانات LRS2 (LRS2 database)- معدل خطأ الكلمات (word error rate)