تحسين التعرف على اللغة الإشارة المستمرة باستخدام قيود الاتساق وإزالة المُشِرِّر

تُشترك معظم النماذج القائمة على التعلم العميق للغة الإشارة المستمرة (CSLR) في هيكل أساسي متشابه يتكون من وحدة بصرية، ووحدة تسلسلية، ووحدة محاذاة. ومع ذلك، نظرًا لعدد محدود من العينات التدريبية، قد لا يكون من الممكن تدريب هذه الهياكل الأساسية بشكل كافٍ باستخدام خسارة التصنيف الزمني الاتصالي (CTC). في هذه الدراسة، نقترح ثلاث مهام مساعدة لتعزيز الهياكل الأساسية للـ CSLR. الأولى تُعزز الوحدة البصرية، التي تكون حساسة لمشكلة النقص في العينات التدريبية، من منظور الاتساق. وبشكل خاص، نظرًا لأن معلومات لغة الإشارة تكمن بشكل رئيسي في تعابير الوجه والحركة اليدوية للمتحدث، تم تطوير وحدة انتباه مكاني موجهة بالنقاط المفتاحية لفرض تركيز الوحدة البصرية على المناطق المفيدة، أي تحقيق اتساق الانتباه المكاني. الثانية، لاحظنا أن مخرجات الوحدتين البصرية والتسلسلية تمثلان الجملة نفسها، ولتحسين استغلال قوة الهيكل الأساسي، تم تطبيق قيد اتساق تضمين الجملة بين الوحدتين البصرية والتسلسلية لتعزيز قدرة تمثيل الميزات في كليهما. ونُسمّي النموذج المدرب باستخدام هذه المهام المساعدة بـ "CSLR المعزز بالاتساق"، والذي يُظهر أداءً جيدًا على مجموعات بيانات تعتمد على المُتحدث (signer-dependent)، حيث يظهر جميع المُتحدثون خلال كل من التدريب والاختبار. ولجعله أكثر مقاومة في البيئة المستقلة عن المُتحدث (signer-independent)، تم اقتراح وحدة إزالة المُتحدث تعتمد على فصل الميزات (feature disentanglement) لإزالة المعلومات الخاصة بالمُتحدث من الهيكل الأساسي. تم إجراء دراسات تحليلية واسعة لتقييم فعالية هذه المهام المساعدة. وبشكل ملحوظ، مع استخدام هيكل أساسي مبني على المُحول (Transformer)، حقق نموذجنا أداءً متفوقًا أو تنافسيًا على خمسة معايير معيارية: PHOENIX-2014 وPHOENIX-2014-T وPHOENIX-2014-SI وCSL وCSL-Daily. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/2000ZRL/LCSA_C2SLR_SRM.