HyperAIHyperAI
منذ 2 أشهر

المطابقات هي كل ما تحتاجه للاعتراف بالكلام البصري

Chang, Oscar ; Liao, Hank ; Serdyuk, Dmitriy ; Shah, Ankit ; Siohan, Olivier
المطابقات هي كل ما تحتاجه للاعتراف بالكلام البصري
الملخص

تقوم نماذج التعرف على الكلام البصري باستخراج الخصائص البصرية بطريقة تراتبية. على المستوى الأدنى، يوجد جهاز معالجة بصري مقدمة (front-end) له مجال استقبال زمني محدود يعالج البكسلات الخام التي تمثل الشفاه أو الوجوه. وعلى المستوى الأعلى، يوجد مُشفر (encoder) يركز على المتجهات المضمنة التي ينتجها الجهاز المعالج البصري المقدمة على مدى مجال استقبال زمني كبير. ركزت الأعمال السابقة على تحسين جهاز المعالجة البصري المقدمة للنموذج لاستخراج خصائص أكثر فائدة للتعرف على الكلام. ومع ذلك، فإن عملنا يظهر بشكل مفاجئ أن الأجهزة المعالجة البصرية المقدمة المعقدة ليست ضرورية. بدلاً من تخصيص الموارد لجهاز معالجة بصري مقدم معقد، وجدنا أن جهاز معالجة بصري مقدم خطي مقترن بمُشفر Conformer أكبر يؤدي إلى انخفاض في وقت الاستجابة، واستخدام ذاكرة أكثر كفاءة، وأداء أفضل في معدل الخطأ الكلامي (WER). حققنا مستوى جديدًا من الطليعة في معدل الخطأ الكلامي (WER) بنسبة 12.8% للتعرف على الكلام البصري في مجموعة بيانات TED LRS3، مما ينافس أداء النماذج الصوتية فقط من أربع سنوات مضت.