قراءة الشفاه في البيئة الطبيعية

الهدف من هذا العمل هو التعرف على العبارات والجمل التي ينطقها وجه متحدث، سواء بوجود الصوت أو بدونه. على عكس الأعمال السابقة التي ركزت على التعرف على عدد محدود من الكلمات أو العبارات، نحن نتعامل مع قراءة الشفاه كمشكلة عالم مفتوح - جمل اللغة الطبيعية غير المقيدة، وفي مقاطع الفيديو الحقيقية.مساهماتنا الرئيسية هي: (1) شبكة "مشاهدة، الاستماع، التركيز وكتابة" (WLAS) التي تتعلم تحويل مقاطع الفيديو لحركة الفم إلى حروف؛ (2) استراتيجية التعلم التدريجي لتسريع التدريب وتقليل الانطباع الزائد؛ (3) مجموعة بيانات "قراءة الشفاه للجمل" (LRS) للاعتراف بالكلام البصري، والتي تتكون من أكثر من 100,000 جملة طبيعية من البرامج البريطانية للتلفزيون.نموذج WLAS الذي تم تدريبه على مجموعة بيانات LRS يتفوق في الأداء على جميع الأعمال السابقة في مجموعات البيانات المعيارية لقراءة الشفاه، وأحيانًا بمعدل كبير. أداء قراءة الشفاه هذا يتفوق على أداء القارئ المهني للشفاه في مقاطع الفيديو من قناة بي بي سي البريطانية، كما أظهرنا أيضًا أن المعلومات البصرية تساعد في تحسين أداء الاعتراف بالكلام حتى عندما يكون الصوت متاحًا.