Command Palette
Search for a command to run...
المطابقات هي كل ما تحتاجه للاعتراف بالكلام البصري
المطابقات هي كل ما تحتاجه للاعتراف بالكلام البصري
Oscar Chang Hank Liao Dmitriy Serdyuk Ankit Shah† Olivier Siohan
الملخص
تقوم نماذج التعرف على الكلام البصري باستخراج الخصائص البصرية بطريقة تراتبية. على المستوى الأدنى، يوجد جهاز معالجة بصري مقدمة (front-end) له مجال استقبال زمني محدود يعالج البكسلات الخام التي تمثل الشفاه أو الوجوه. وعلى المستوى الأعلى، يوجد مُشفر (encoder) يركز على المتجهات المضمنة التي ينتجها الجهاز المعالج البصري المقدمة على مدى مجال استقبال زمني كبير. ركزت الأعمال السابقة على تحسين جهاز المعالجة البصري المقدمة للنموذج لاستخراج خصائص أكثر فائدة للتعرف على الكلام. ومع ذلك، فإن عملنا يظهر بشكل مفاجئ أن الأجهزة المعالجة البصرية المقدمة المعقدة ليست ضرورية. بدلاً من تخصيص الموارد لجهاز معالجة بصري مقدم معقد، وجدنا أن جهاز معالجة بصري مقدم خطي مقترن بمُشفر Conformer أكبر يؤدي إلى انخفاض في وقت الاستجابة، واستخدام ذاكرة أكثر كفاءة، وأداء أفضل في معدل الخطأ الكلامي (WER). حققنا مستوى جديدًا من الطليعة في معدل الخطأ الكلامي (WER) بنسبة 12.8% للتعرف على الكلام البصري في مجموعة بيانات TED LRS3، مما ينافس أداء النماذج الصوتية فقط من أربع سنوات مضت.