Command Palette
Search for a command to run...
قراءة الشفاه في البيئة الطبيعية
قراءة الشفاه في البيئة الطبيعية
Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman
الملخص
الهدف من هذا العمل هو التعرف على العبارات والجمل التي ينطقها وجه متحدث، سواء بوجود الصوت أو بدونه. على عكس الأعمال السابقة التي ركزت على التعرف على عدد محدود من الكلمات أو العبارات، نحن نتعامل مع قراءة الشفاه كمشكلة عالم مفتوح - جمل اللغة الطبيعية غير المقيدة، وفي مقاطع الفيديو الحقيقية.مساهماتنا الرئيسية هي: (1) شبكة "مشاهدة، الاستماع، التركيز وكتابة" (WLAS) التي تتعلم تحويل مقاطع الفيديو لحركة الفم إلى حروف؛ (2) استراتيجية التعلم التدريجي لتسريع التدريب وتقليل الانطباع الزائد؛ (3) مجموعة بيانات "قراءة الشفاه للجمل" (LRS) للاعتراف بالكلام البصري، والتي تتكون من أكثر من 100,000 جملة طبيعية من البرامج البريطانية للتلفزيون.نموذج WLAS الذي تم تدريبه على مجموعة بيانات LRS يتفوق في الأداء على جميع الأعمال السابقة في مجموعات البيانات المعيارية لقراءة الشفاه، وأحيانًا بمعدل كبير. أداء قراءة الشفاه هذا يتفوق على أداء القارئ المهني للشفاه في مقاطع الفيديو من قناة بي بي سي البريطانية، كما أظهرنا أيضًا أن المعلومات البصرية تساعد في تحسين أداء الاعتراف بالكلام حتى عندما يكون الصوت متاحًا.