HyperAIHyperAI
منذ شهر واحد

التعرف على الكلام السمعي البصري العميق

Triantafyllos Afouras; Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman
التعرف على الكلام السمعي البصري العميق
الملخص

هدف هذا العمل هو التعرف على العبارات والجمل التي ينطقها وجه متحدث، بوجود الصوت أو بدونه. على عكس الأعمال السابقة التي ركزت على التعرف على عدد محدود من الكلمات أو العبارات، نحن نتعامل مع قراءة الشفاه كمشكلة عالم مفتوح - جمل اللغة الطبيعية غير المقيدة، وفي مقاطع الفيديو الحقيقية. إسهاماتنا الرئيسية هي: (1) نقارن بين نموذجين لقراءة الشفاه، أحدهما يستخدم خسارة CTC (CTC loss)، والآخر يستخدم خسارة التحويل من تسلسل إلى تسلسل (sequence-to-sequence loss). يتم بناء كلا النموذجين على أساس هندسة الانتباه الذاتي للمتحول (transformer self-attention architecture)؛ (2) ندرس إلى أي مدى يمكن أن تكون قراءة الشفاه مكملة للتعرف على الكلام الصوتي، خاصة عندما يكون الإشارة الصوتية ضوضائية؛ (3) نقدم ونشر بشكل عام مجموعة بيانات جديدة للتعرف على الكلام السمعي البصري، وهي LRS2-BBC، والتي تتكون من آلاف الجمل الطبيعية من التلفزيون البريطاني. النماذج التي ندربها تتفوق بشكل كبير على أداء جميع الأعمال السابقة في مجموعة بيانات المعايرة لقراءة الشفاه.