شبكة ذات تأكيد ذاتي للتعرف على لغة الإشارة المستمرة

تلعب اليد والوجه دورًا مهمًا في التعبير عن اللغة الإشارة، حيث تُستغل خصائصهما عادةً لتحسين أداء النظم. ومع ذلك، فإن الاستخراج الفعّال للتمثيلات البصرية واعتبار المسارات الخاصة باليد والوجه يتطلب غالبًا حسابات مكثفة وتعقيدًا متزايدًا في التدريب. وغالبًا ما تعتمد الطرق السابقة على شبكات ثقيلة إضافية لتقدير وضعية الجسم (pose-estimation) لتحديد نقاط المفاصل البشرية، أو تعتمد على خرائط حرارية مُستخرجة مسبقًا لتوفير إشراف إضافي. ولتخفيف هذه المشكلة، نقترح شبكة ذات تأكيد ذاتي (Self-Emphasizing Network, SEN) تُركّز على المناطق المكانية المفيدة بطريقة ذاتية، مع استهلاك ضئيل للحسابات الإضافية، وبلا حاجة إلى إشراف مكلف إضافي. بشكل محدد، تستخدم SEN أولاً شبكة فرعية خفيفة الوزن لدمج الخصائص المكانية الزمنية المحلية لتحديد المناطق المفيدة، ثم تعزز الخصائص الأصلية ديناميكيًا من خلال خرائط الانتباه. كما لاحظنا أن ليس كل إطار يسهم بنفس القدر في التعرف. ولذلك، نقدّم وحدة تأكيد ذاتي زمنية تُعدّل تأكيد الإطارات التمييزية وتُقلّل من تأثير الإطارات الزائدة. أظهرت مقارنة شاملة مع الطرق السابقة التي تستخدم خصائص اليد والوجه تفوق طريقة لدينا، رغم أن هذه الطرق غالبًا ما تتطلب حسابات هائلة وتستند إلى إشراف إضافي مكلف. وبشكل ملحوظ، وباستهلاك ضئيل للحسابات الإضافية، تحقق SEN دقة قياسية جديدة على أربع مجموعات بيانات كبيرة: PHOENIX14 وPHOENIX14-T وCSL-Daily وCSL. وتوثّق التصوير البصري تأثير SEN في تأكيد الخصائص المكانية والزمنية المفيدة. يتوفر الكود على الرابط: https://github.com/hulianyuyy/SEN_CSLR