
يهدف قراءة الشفاه إلى التعرف على محتوى الكلام من مقاطع الفيديو عبر تحليل بصري لحركات شفاه المتحدثين. تعد هذه المهمة صعبة بسبب وجود الكلمات المتشابهة في حركات الشفاه (الهوموفيمات) - الكلمات التي تتضمن حركات شفاه متطابقة أو شديدة التشابه، بالإضافة إلى الاختلافات في مظهر الشفاه وأنماط الحركة بين المتحدثين. لمعالجة هذه التحديات، نقترح نموذجًا جديدًا لقراءة الشفاه يلتقط ليس فقط الفروق الدقيقة بين الكلمات ولكن أيضًا أسلوب كل متحدث، من خلال نمذجة زمانية-مكانية متعددة المستويات للعملية النطقية. بتحديد أكثر، نقوم أولاً باستخراج خصائص دقيقة المستوى الإطاري وخصائص متوسطة المستوى قصيرة المدى بواسطة الجزء الأمامي البصري، والتي يتم دمجها بعد ذلك للحصول على تمثيلات تمييزية لكلمات ذات فونيمات مشابهة. ثم، يتم استخدام شبكة ConvLSTM ثنائية الاتجاه مع انتباه زمني لتجميع المعلومات الزمانية-المكانية في سلسلة الإدخال الكاملة، مما يتوقع أن يكون قادرًا على التقاط الأنماط الخشنة لكل كلمة والتعامل مع مختلف الظروف المتعلقة بهوية المتحدث وظروف الإضاءة وما إلى ذلك. عن طريق الاستفادة الكاملة من المعلومات الموجودة على مستويات مختلفة ضمن إطار موحد، يكون النموذج قادرًا ليس فقط على تمييز الكلمات ذات النطق المشابه ولكن أيضًا يصبح مقاومًا للتغيرات في المظهر. قدمنا تقييمًا لطرقنا على محكمتين صعبتين لقراءة الشفاه على مستوى الكلمة وأظهرنا فعالية الطريقة المقترحة، والتي تؤكد أيضًا الادعاءات المذكورة أعلاه.