التعرف على الكلام البصري على نطاق واسع

يقدم هذا العمل حلاً قابلاً للتوسع لمشكلة التعرف على الكلام البصري المفتوح. لتحقيق ذلك، قمنا ببناء أكبر مجموعة بيانات موجودة للتعرف على الكلام البصري، تتكون من أزواج من النصوص ومقاطع فيديو لوجوه تتحدث (3,886 ساعة من الفيديو). وفي الوقت نفسه، صممنا ودربنا نظامًا متكاملًا للقراءة من الشفتين، يتضمن خط أنابيب معالجة الفيديو يربط بين الفيديو الخام ومقاطع فيديو ثابتة للشفتين وسلسلة من الصوتيات، وشبكة عصبية عميقة قابلة للتوسع تربط بين مقاطع فيديو الشفتين ومجموعات توزيع الصوتيات، ومحقق كلام على مستوى الإنتاج ينتج سلاسل كلمات. حقق النظام المقترح معدل خطأ الكلمات (WER) بنسبة 40.9% كما تم قياسه على مجموعة اختبار محفوظة. بالمقارنة مع ذلك، يحقق المحترفون في القراءة من الشفتين معدلات خطأ الكلمات (WER) بنسبة 86.4% أو 92.9% على نفس مجموعة البيانات عندما لديهم إمكانية الوصول إلى أنواع إضافية من المعلومات السياقية. يحسن نهجنا بشكل كبير على نهجات القراءة من الشفتين الأخرى، بما في ذلك نسخ مختلفة من LipNet و Watch, Attend, and Spell (WAS)، والتي تكون قادرة فقط على تحقيق معدلات خطأ الكلمات (WER) بنسبة 89.8% و 76.8% على التوالي.