Transformer متعدد الوسائط مُحسَّن محليًا لل erk reconocimiento continuo للغة الإشارة
في هذه الورقة، نُقدِّم نهجًا جديدًا يعتمد على نموذج الترانسفورمر (Transformer) للإعراف المستمر لغة الإشارة (CSLR) من مقاطع الفيديو، بهدف معالجة العيوب التي تُظهرها النماذج التقليدية المبنية على الترانسفورمر في تعلُّم السياق الدلالي المحلي لغة الإشارة. وبشكل محدد، يعتمد النموذج المقترح على مكوَّنين مختلفين: (أ) وحدة RNN تعتمد على نافذة زمنية لالتقاط السياق الزمني المحلي، و(ب) مشفر ترانسفورمر مُحسَّن من خلال نمذجة محلية باستخدام الانحراف الغاوسي والمعلومات الموضعية النسبية، بالإضافة إلى نمذجة البنية الشاملة من خلال الانتباه متعدد الرؤوس. ولتحسين أداء النموذج بشكل أكبر، نصمم إطارًا متعدد الوسائط يطبِّق النموذج المقترح على كل من تيارات الإشارة البصرية والحركة، ونُسَمِّي النتائج الاحتمالية من خلال تقنية CTC التوجيهية. علاوةً على ذلك، نحقق مواءمة بين السمات البصرية وتسلسل الكلمات (gloss sequence) من خلال دمج خسارة الاستخلاص المعرفي (knowledge distillation loss). وقد أظهرت التقييمات التجريبية على مجموعتي بيانات شهيرتين لغة الإشارة الألمانية، تفوق النموذج المقترح.