استخلاص السياقات عبر الزمنية للاعتراف باللغة الإشارة المستمرة

تهدف الاعتراف المستمر بلغة الإشارة (CSLR) إلى التعرف على الكلمات (glosses) في مقاطع فيديو بلغة الإشارة. تُستخدم الطرق الرائدة حاليًا نموذجين رئيسيين: وحدة الإدراك المكاني، ووحدة تجميع الزمن، حيث تُدرّس هاتان الوحدتان معًا بشكل متكامل من البداية إلى النهاية. وقد أظهرت النتائج الحالية في الدراسات [9,20,25,36] أن وحدة الإدراك المكاني، التي تُعدّ المكون الأمامي للنموذج الكلي وتُستخدم لاستخلاص السمات المكانية، غالبًا ما تكون غير مدرّبة بشكل كافٍ. في هذه الورقة، نقوم أولًا بدراسات تجريبية نُظهر من خلالها أن استخدام وحدة تجميع زمني رقيقة (Shallow Temporal Aggregation Module) يُمكّن من تدريب وحدة الإدراك المكاني بشكل أكثر شمولاً. ومع ذلك، فإن وحدة التجميع الزمني الرقيقة لا تستطيع بشكل جيد التقاط معلومات السياق الزمني المحلي والعالمي في لغة الإشارة. لحل هذا التناقض، نقترح نموذجًا جديدًا يُسمى "تجميع السياق الزمني عبر الزمن" (Cross-Temporal Context Aggregation, CTCA). وبشكل محدد، نبني شبكة ذات طريقتين (Dual-path Network) تحتوي على فرعين: أحدهما لاستشعار السياق الزمني المحلي، والآخر لاستشعار السياق الزمني العالمي. كما نصمم وظيفة تعلم تُعرف بـ "نقل المعرفة بين السياقات" (Cross-Context Knowledge Distillation) لدمج النوعين من السياق والمعرفة اللغوية السابقة (Linguistic Prior). يُمكّن هذا نقل المعرفة من تطوير وحدة تجميع زمني واحدة فعّالة قادرة على استشعار السياق الزمني المحلي والعالمي، إضافة إلى السياق الدلالي. ويساهم هذا الهيكل الرقيق للإدراك الزمني في تحسين تعلم وحدة الإدراك المكاني. وتوحي النتائج التجريبية الواسعة على معايير تحدي CSLR بأن منهجنا يتفوق على جميع الطرق الرائدة حاليًا.