HyperAIHyperAI
منذ شهر واحد

دمج شبكات البقايا مع LSTM لقراءة الشفاه

Themos Stafylakis; Georgios Tzimiropoulos
دمج شبكات البقايا مع LSTM لقراءة الشفاه
الملخص

نقترح معمارية تعلم عميقة من النهاية إلى النهاية للاعتراف بالكلمات على مستوى الكلمة من خلال الكلام المرئي. يتكون النظام من مزيج من شبكات التوافقي الزماني والمكاني، والشبكات الباقية، والشبكات ثنائية الاتجاه للذاكرة طويلة المدى قصيرة المدى (Long Short-Term Memory). نقوم بتدريبه وتقييمه على مقاييس Lipreading In-The-Wild، وهو قاعدة بيانات صعبة تحتوي على 500 كلمة هدف تتكون من مقاطع فيديو مدتها 1.28 ثانية مستخرجة من بثّات تلفزيون بي بي سي. يحقق الشبكة المقترحة دقة الكلمات تبلغ 83.0٪، مما يوفر تحسينًا مطلقًا بنسبة 6.8٪ على أحدث ما وصلت إليه التقنيات الحالية، دون استخدام معلومات حول حدود الكلمات أثناء التدريب أو الاختبار.

دمج شبكات البقايا مع LSTM لقراءة الشفاه | أحدث الأوراق البحثية | HyperAI