التعرف على الإجراءات مع الوعي بالموضع والمعصم

تتركز التطورات الحديثة في التعرف على الحركات بشكل رئيسي على ميزات RGB وتدفق الضوء (optical flow). في هذه الورقة، نتناول مشكلة التعرف على الحركات القائمة على المفاصل. على عكس الوسائط الأخرى، فإن تكوين المفاصل وحركتها يُنتج نماذجًا تحتوي على معلومات حركية بشرية موجزة تُستخدم في التعرف على الأنشطة. نقدم نموذجًا جديدًا للتعرف على الحركات القائمة على المفاصل، والذي يبدأ باستخراج ميزات الحركة من كل مفصل على حدة من خلال معالج حركة مشترك، قبل إجراء استنتاج جماعي. ويُعيد وحدة اختيار المفاصل توزين معلومات المفاصل لاختيار المفاصل الأكثر تمييزًا لل任務. كما نقترح خسارة جديدة تُسمى خسارة التقابل بين المفاصل (joint-contrastive loss)، والتي تُجذب مجموعات من ميزات المفاصل التي تُعبّر عن نفس الحركة. ونعزز تمثيلات المفاصل باستخدام تقنية توليد بيانات مُستندة إلى الهندسة، حيث تُحدث اهتزازات في خرائط حرارة الوضع (pose heatmaps) مع الحفاظ على ديناميكية الحركة. ونُظهر تحسينات كبيرة مقارنة بالأساليب الحالية المتميزة في التعرف على الحركات القائمة على المفاصل على مجموعات بيانات JHMDB وHMDB وCharades وAVA للتعرف على الحركات. كما تُحقّق عملية دمج متأخرة مع الأساليب القائمة على RGB وتدفق الضوء تحسينات إضافية. كما يتفوق نموذجنا على النموذج الأساسي الحالي على مجموعة بيانات Mimetics، التي تحتوي على حركات خارج السياق.