تمييز الإجراءات باستخدام نمذجة الحركة متعددة التدفقات وتحقيق أقصى تبادل معلومات متبادلة

تمثّل التعرف على الحركات مشكلة أساسية ومثيرة في الذكاء الاصطناعي منذ فترة طويلة. ويتسم هذا المهمة بالصعوبة نظرًا للطبيعة عالية الأبعاد للحركة، فضلًا عن التفاصيل الدقيقة في الحركة التي يجب أخذها بعين الاعتبار. تتعلم الطرق الحالية المتميزة عادةً من تسلسلات الحركة المفصلية في الفضاء ثلاثي الأبعاد الإقليدي البسيط. ومع ذلك، فإن الفضاء الإقليدي القياسي ليس فعّالًا في نمذجة خصائص الحركة المهمة مثل التسارع الزاوي لكل مفصل، والذي يكشف عن القوة الدافعة وراء الحركة. علاوةً على ذلك، تُعطي الطرق الحالية اهتمامًا متساويًا لكل قناة، وتفتقر إلى قيود نظرية في استخلاص الميزات ذات الصلة بالمهمة من المدخلات.في هذه الورقة، نسعى إلى التصدي لهذه التحديات من ثلاث جوانب: (1) نقترح دمج تمثيل للتسارع، والذي يُمكّن من نمذجة التغيرات من الدرجة العليا في الحركة بشكل صريح. (2) نقدّم شبكة Stream-GCN جديدة مزودة بمكونات متعددة التدفقات (multi-stream) والانتباه القنوي، حيث تكمل التمثيلات المختلفة (أي التدفقات) بعضها البعض لتحقيق تصنيف حركة أكثر دقة، بينما يُستغل الانتباه في التركيز على القنوات المهمة. (3) نستكشف التوجيه على مستوى الميزات بهدف تحسين استخلاص المعلومات ذات الصلة بالمهمة، ونُصاغ هذا المفهوم في شكل خسارة معلومات متبادلة (mutual information loss). من الناحية التجريبية، حققت طريقة عملنا أفضل أداء مُسجّل حتى الآن على ثلاث مجموعات بيانات معيارية: NTU RGB+D و NTU RGB+D 120 و NW-UCLA. وتم إصدار الشفرة بشكل مجهول الهوية على الرابط التالي: https://github.com/ActionR-Group/Stream-GCN، آملين أن تُلهم المجتمع العلمي.