شبكة انتباه المفاتيح متعددة التدفقات للتعرف على لغة الإشارة والترجمة

تُعد اللغة الإشارة وسيلة اتصال غير صوتية، تُنقل من خلال الإشارات الحركية، والتعبيرات الوجهية، والحركة الجسدية. تعتمد معظم الطرق الحالية لتمييز وترجمة اللغة الإشارة (SLR) على إدخالات الفيديو باللون RGB، التي تكون عرضة للتقلبات الناتجة عن التغيرات في الخلفية. أما استخدام استراتيجية قائمة على النقاط المفتاحية، فهي لا تقلل فقط من تأثير تغيرات الخلفية، بل تقلل أيضًا بشكل كبير من متطلبات الحوسبة للنموذج. ومع ذلك، تفشل الطرق الحديثة القائمة على النقاط المفتاحية في استغلال المعرفة الضمنية المحتواة في التسلسلات الزمنية للنقاط المفتاحية بشكل كامل. ولحل هذه التحديات، استلهمت أفكارنا من آلية الإدراك البشري، التي تميز اللغة الإشارة من خلال تحليل التفاعل بين تكوينات الإشارات والعناصر الإضافية. نقترح شبكة انتباه متعددة التدفقات قائمة على النقاط المفتاحية، لتمثيل تسلسل من النقاط المفتاحية يتم استخلاصه بواسطة مُحدد نقاط مفتاحية متاح بشكل شائع. ولتمكين التفاعل بين التدفقات المتعددة، نستعرض أساليب متنوعة مثل استراتيجيات دمج النقاط المفتاحية، ودمج الرؤوس، والتدرّب الذاتي. يُعرف الإطار الناتج باسم MSKA-SLR، والذي يُوسَّع ليصبح نموذجًا لترجمة اللغة الإشارة (SLT) من خلال إضافة شبكة ترجمة إضافية بشكل بسيط. أجرينا تجارب شاملة على معايير معروفة مثل Phoenix-2014 وPhoenix-2014T وCSL-Daily لتوضيح فعالية منهجيتنا. وتميّزت النتائج بتحقيق أداءً قياسيًا جديدًا في مهمة ترجمة اللغة الإشارة على مجموعة بيانات Phoenix-2014T. يمكن الوصول إلى الكود والنماذج من خلال: https://github.com/sutwangyan/MSKA.