منذ شهر واحد
دمج شبكات البقايا مع LSTM لقراءة الشفاه
Themos Stafylakis; Georgios Tzimiropoulos

الملخص
نقترح معمارية تعلم عميقة من النهاية إلى النهاية للاعتراف بالكلمات على مستوى الكلمة من خلال الكلام المرئي. يتكون النظام من مزيج من شبكات التوافقي الزماني والمكاني، والشبكات الباقية، والشبكات ثنائية الاتجاه للذاكرة طويلة المدى قصيرة المدى (Long Short-Term Memory). نقوم بتدريبه وتقييمه على مقاييس Lipreading In-The-Wild، وهو قاعدة بيانات صعبة تحتوي على 500 كلمة هدف تتكون من مقاطع فيديو مدتها 1.28 ثانية مستخرجة من بثّات تلفزيون بي بي سي. يحقق الشبكة المقترحة دقة الكلمات تبلغ 83.0٪، مما يوفر تحسينًا مطلقًا بنسبة 6.8٪ على أحدث ما وصلت إليه التقنيات الحالية، دون استخدام معلومات حول حدود الكلمات أثناء التدريب أو الاختبار.