التعلم التسلسلي التكاملي القائم على التجميع المكاني-الزمني للقراءة الشفهية

الأساليب الحالية المُتميزة في قراءة الشفاه تعتمد على هياكل متسلسلة إلى متسلسلة (sequence-to-sequence) المصممة خصيصًا للترجمة الآلية الطبيعية وتقنيات التعرف على الكلام الصوتي. وعليه، لا تستغل هذه الأساليب بالكامل الخصائص الخاصة بديناميات الشفاه، مما يؤدي إلى عيبين رئيسيين. أولاً، لا تُعطى اهتمامًا إضافيًا للعلاقة الزمنية القصيرة النطاق، التي تُعدّ حاسمة في التمثيل من صور الشفاه إلى الفيسيمات (visemes). ثانيًا، يتم التخلص من المعلومات المكانية المحلية في النماذج المتسلسلة الحالية بسبب استخدام التجميع المتوسط العالمي (Global Average Pooling - GAP). ولحل هذين العيبين بشكل فعّال، نقترح كتلة التركيز الزمني (Temporal Focal Block) لوصف التبعيات القصيرة النطاق بشكل كافٍ، بالإضافة إلى وحدة التكامل المكاني-الزمني (Spatio-Temporal Fusion Module - STFM) للحفاظ على المعلومات المكانية المحلية وتقليل أبعاد الميزات في آنٍ واحد. وقد أظهرت نتائج التجارب أن طريقة العمل المقترحة تحقق أداءً مماثلاً للأساليب الرائدة في المجال، ولكن باستخدام كمية أقل بكثير من البيانات التدريبية، ومستخرج ميزات تلافيفي (Convolutional Feature Extractor) أخف وزنًا. كما تم تقليل وقت التدريب بـ 12 يومًا بفضل البنية التلافيفية والآلية الانتباه الذاتي الموضعية.