التعرف على الأنشطة الجماعية باستخدام تمثيل فعّال للعلاقة متعددة الوسائط مع الانتباه الزمني-المكاني
تمثل التعرف على الأنشطة الجماعية مجالاً حظي باهتمام كبير نظراً لتطبيقاته الواسعة في تحليل الرياضات، والمركبات المستقلة، وأنظمة المراقبة عبر كاميرات المراقبة (CCTV)، ونظم تلخيص الفيديو. وغالباً ما تعتمد الطرق الحالية على ميزات المظهر، وتنقص من اهتمامها بالمعلومات التفاعلية الكامنة وراء الأنشطة. في هذا العمل، تم اقتراح تقنية جديدة للتعرف على الأنشطة الجماعية تعتمد على تمثيل العلاقات متعددة الوسائط مع انتباه زمني-مكاني. أولاً، قمنا بوضع وحدة علاقات الكائنات، التي تعالج جميع الكائنات في المشهد في نفس الوقت من خلال تفاعل بين خصائص مظهرها وخصائص هندستها، مما يمكّن من نمذجة علاقاتها المتبادلة. ثانياً، لاستخراج ميزات حركة فعّالة، تم تحسين شبكة تدفق بصري (Optical Flow Network) باستخدام خسارة الفعل كإشارة مراقبة. ثم قمنا باقتراح نوعين من نماذج الاستدلال: opt-GRU وrelation-GRU، التي تُستخدم لتمثيل العلاقات بين الكائنات وتمثيل الحركة بشكل فعّال، وتكوين تمثيلات مميزة على مستوى الإطار (frame-level). وأخيراً، تم اقتراح طبقة تجميع زمنية تعتمد على الانتباه لدمج تمثيلات الإطارات المختلفة بوزن مختلف، وتكوين تمثيلات فعّالة على مستوى الفيديو. أجرينا تجارب واسعة على مجموعتي بيانات شهيرتين، وقد حققت النتائج أداءً متفوّقاً على الأفضل في المجال. تشمل المجموعتان: مجموعة بيانات فوليبول (Volleyball Dataset) ومجموعة بيانات الأنشطة الجماعية (Collective Activity Dataset).