إطارات الحركة المدمجة: استراتيجية دمج على مستوى البيانات لتمييز حركات اليد

الحصول على الحالة المكانية-الزمانية لحركة ما هو الخطوة الأكثر أهمية في تصنيف الحركات. في هذا البحث، نقترح استراتيجية دمج على مستوى البيانات، وهي الإطارات المدمجة بالحركة (MFFs)، المصممة لدمج معلومات الحركة في الصور الثابتة كممثل أفضل للحالة المكانية-الزمانية للحركة. يمكن استخدام الإطارات المدمجة بالحركة (MFFs) كمدخل لأي بنية عميقة للتعلم الآلي مع تعديلات بسيطة جداً على الشبكة. قمنا بتقييم الإطارات المدمجة بالحركة (MFFs) في مهام التعرف على إشارات اليد باستخدام ثلاثة مجموعات بيانات فيديو - Jester و ChaLearn LAP IsoGD و NVIDIA Dynamic Hand Gesture Datasets - والتي تتطلب التقاط العلاقات الزمنية طويلة الأمد لحركات اليد. حققت طريقتنا أداءً تنافسياً للغاية على مقاييس Jester و ChaLearn بمعدلات تصنيف بلغت 96.28% و 57.4% على التوالي، بينما حققت أداءً يتفوق على أحدث الأساليب بمعدل دقة بلغ 84.7% على مقاييس NVIDIA.