التعرف على الكلام السمعي البصري العميق

هدف هذا العمل هو التعرف على العبارات والجمل التي ينطقها وجه متحدث، بوجود الصوت أو بدونه. على عكس الأعمال السابقة التي ركزت على التعرف على عدد محدود من الكلمات أو العبارات، نحن نتعامل مع قراءة الشفاه كمشكلة عالم مفتوح - جمل اللغة الطبيعية غير المقيدة، وفي مقاطع الفيديو الحقيقية. إسهاماتنا الرئيسية هي: (1) نقارن بين نموذجين لقراءة الشفاه، أحدهما يستخدم خسارة CTC (CTC loss)، والآخر يستخدم خسارة التحويل من تسلسل إلى تسلسل (sequence-to-sequence loss). يتم بناء كلا النموذجين على أساس هندسة الانتباه الذاتي للمتحول (transformer self-attention architecture)؛ (2) ندرس إلى أي مدى يمكن أن تكون قراءة الشفاه مكملة للتعرف على الكلام الصوتي، خاصة عندما يكون الإشارة الصوتية ضوضائية؛ (3) نقدم ونشر بشكل عام مجموعة بيانات جديدة للتعرف على الكلام السمعي البصري، وهي LRS2-BBC، والتي تتكون من آلاف الجمل الطبيعية من التلفزيون البريطاني. النماذج التي ندربها تتفوق بشكل كبير على أداء جميع الأعمال السابقة في مجموعة بيانات المعايرة لقراءة الشفاه.