مجموعة متكاملة من نماذج مشاركة المعرفة للتعرف على الإيماءات اليدوية الديناميكية

تركز هذه الورقة على اعتراف الحركات الديناميكية في سياق التفاعل بين البشر والآلات. نقترح نموذجًا يتكوّن من شبكة فرعية مكونة من مُحَوِّل (Transformer) وشبكة عصبية متكررة (RNN) تعتمد على ذاكرة طويلة قصيرة الأجل ذات عصبونات مرتبة (ON-LSTM). يتم تدريب كل شبكة فرعية على أداء مهمة اعتراف الحركات باستخدام معلومات مفصلية العظام فقط. وبسبب الاختلاف في البنية المعمارية، تستخرج كل شبكة فرعية أنواعًا مختلفة من السمات، مما يمكّن من مشاركة المعرفة بين الشبكتين. ومن خلال تقنية تبادل المعرفة (Knowledge Distillation)، تُدمج السمات والتنبؤات الناتجة من كل شبكة فرعية لتكوين فئة تجميعية جديدة. بالإضافة إلى ذلك، يمكن استخدام معدل تعلم دوري (Cyclical Learning Rate) لإنشاء مجموعة من النماذج التي تُدمج معًا في تجميع (Ensemble)، بهدف تحقيق تنبؤات أكثر قابلية للعامة. وتبين النموذج المُجمّع الذي يعتمد على مشاركة المعرفة أداءً عامًا بنسبة دقة تبلغ 86.11%، باستخدام فقط معلومات مفصلية العظام، وذلك عند اختباره باستخدام مجموعة بيانات الحركات اليدوية الديناميكية (Dynamic Hand Gesture-14/28).