تعلم الأنشطة الجماعية من الهياكل دون تسميات الإجراء الفردي

لفهم السلوك البشري، لا يكفي التعرف على الإجراءات الفردية فقط، بل يجب أيضًا نمذجة الأنشطة الجماعية المعقدة والتفاعلات بين الأفراد. تُظهر النماذج الهرمية أفضل النتائج في تمييز الأنشطة الجماعية، لكنها تتطلب تسميات دقيقة للإجراءات الفردية على مستوى الفاعل. في هذه الورقة، نُظهر أنه باستخدام بيانات العظام فقط، يمكننا تدريب نظام متطور من الطرف إلى الطرف (end-to-end) بمستوى عالٍ من الأداء، وذلك باستخدام فقط تسميات للأنشطة الجماعية على مستوى التسلسل، دون الحاجة إلى تسميات فردية. تُظهر تجاربنا أن النماذج المدربة دون إشراف على الإجراءات الفردية تؤدي بأداء ضعيف. من ناحية أخرى، نُظهر أن يمكن حساب تسميات افتراضية (Pseudo-labels) من أي مستخرج ميزات مُدرّب مسبقًا، مع تحقيق أداء نهائي مماثل. وأخيرًا، تُظهر معمارية لدينا المُصممة بعناية والمستندة فقط إلى وضعية الجسد (pose-only) نتائج تنافسية للغاية مقارنة بالنهج متعددة الوسائط الأكثر تعقيدًا، حتى في النسخة ذاتية الإشراف (self-supervised).