Siformer: Transformer معزول الميزات للإRecognition الفعّال للغة الإشارة القائمة على الهيكل العظمي
تمثّل اعتراف لغة الإشارة (SLR) تفسير مصطلحات لغة الإشارة المستخلصة من مقاطع فيديو معطاة بشكل تلقائي. يُعدّ هذا المجال البحثي تحديًا معقدًا في مجال الرؤية الحاسوبية نظرًا للحركات السريعة والمعقدة المميزة لغات الإشارة، التي تشمل إشارات الأيدي، ووضعيات الجسم، وحتى تعابير الوجه. في الآونة الأخيرة، اجتذبت طرق اعتراف الحركات القائمة على الهيكل العظمي (skeleton-based action recognition) اهتمامًا متزايدًا بفضل قدرتها على التعامل مع التغيرات في الأشخاص والخلفيات بشكل مستقل. ومع ذلك، تُظهر الطرق الحالية القائمة على الهيكل العظمي ثلاث قيود رئيسية: 1) غالبًا ما تتجاهل أهمية تمثيل وضعيات الأيدي الواقعية، حيث تُدرّب معظم الدراسات نماذج SLR على تمثيلات هيكلية غير واقعية؛ 2) تميل إلى افتراض توفر بيانات كاملة في مراحل التدريب أو الاستنتاج، وتحاول التقاط العلاقات المعقدة بين أجزاء الجسم المختلفة بشكل جماعي؛ 3) تتعامل مع جميع مصطلحات الإشارة بشكل متساوٍ، مما يفشل في أخذ الاختلافات في مستويات التعقيد المتعلقة بالتمثيل الهيكلي بعين الاعتبار.لتحسين واقعية تمثيلات الهيكل العظمي للأيدي، نقدّم طريقة تصحيح وضعية اليد الحركية (kinematic hand pose rectification) لفرض قيود محددة. ولتقليل تأثير البيانات المفقودة، نقترح آلية معزولة للميزات (feature-isolated mechanism) تركز على التقاط السياق الزماني-المكاني المحلي. تُمكّن هذه الطريقة من التقاط السياق بشكل متزامن ومستقل عن الميزات الفردية، مما يعزز موثوقية نموذج SLR. علاوةً على ذلك، وللتكيف مع مستويات التعقيد المتغيرة لمصطلحات الإشارة، نطوّر نهج استنتاج مُتكيف مع المدخلات (input-adaptive inference approach) لتحسين الكفاءة الحسابية والدقة.أظهرت النتائج التجريبية فعالية نهجنا، حيث تحققت أداءً جديدًا متفوّقًا (SOTA) على مجموعتي البيانات WLASL100 وLSA64. بالنسبة لـ WLASL100، حققنا دقة أعلى بنسبة 1% بلغت 86.50%، ما يمثل تحسنًا نسبيًا قدره 2.39% مقارنة بالحالة السابقة المتفوّقة. أما بالنسبة لـ LSA64، فقد بلغت الدقة العليا 99.84%. تم إتاحة الأدوات والكود المرتبطة بهذا البحث بشكل عام عبر الإنترنت (https://github.com/mpuu00001/Siformer.git).