مَارس: تدفق الصورة الملونة المُعزّز بالحركة للتعرف على الحركات

تتألف معظم الطرق المتطورة حديثًا لتمييز الحركات من بنية ثنائية التدفق تتضمن تبليغات ثلاثية الأبعاد: تدفق ظاهري لإطارات RGB، وتدفق حركي لإطارات التدفق البصري. وعلى الرغم من أن دمج التدفق مع RGB يحسن الأداء، إلا أن تكلفة حساب التدفق البصري الدقيق مرتفعة، مما يؤدي إلى زيادة زمن التأخير في تمييز الحركات. وهذا يحد من استخدام النماذج الثنائية التدفق في التطبيقات الواقعية التي تتطلب زمن تأخير منخفض. في هذه الورقة، نقدم طريقتين للتعلم لتدريب شبكة 3D CNN قياسية تعمل على إطارات RGB، بحيث تقلد تدفق الحركة، وبالتالي تتجنب حساب التدفق أثناء الاختبار. أولاً، من خلال تقليل خسارة تعتمد على الميزات مقارنةً بتدفق التدفق، نُظهر أن الشبكة تعيد إنتاج تدفق الحركة بدقة عالية. ثانيًا، لاستغلال المعلومات الظاهرة والحركة بشكل فعّال، نُدرّب الشبكة باستخدام مزيج خطي من خسارة الميزات وخسارة التردد المتقاطع القياسية لتمييز الحركات. ونُسمّي التدفق المدرّب باستخدام هذه الخسارة المُجمعة بـ "تدفق RGB المُعزز بالحركة" (MARS). وبكونه تدفقًا وحيدًا، يُظهر MARS أداءً أفضل من تدفق RGB أو تدفق التدفق وحدهما، مثلاً بتحقيق دقة 72.7% على مجموعة بيانات Kinetics مقابل 72.0% و65.6% لتدفق RGB وتدفق التدفق على التوالي.