MotionSqueeze: التعلم العصبي لميزات الحركة لفهم الفيديو

تلعب الحركة دورًا حاسمًا في فهم الفيديوهات، وغالبًا ما تُدمج المعلومات الحركية في معظم النماذج العصبية الرائدة لتصنيف الفيديو باستخدام تدفقات بصرية (optical flows) يتم استخراجها عبر طريقة منفصلة وجاهزة. وبما أن تدفقات الإطارات الفردية تتطلب حسابات مكثفة، فقد بقيت إدخال المعلومات الحركية عقبة حاسوبية رئيسية في مجال فهم الفيديو. في هذه الدراسة، نستبدل الحسابات الخارجية والثقيلة الخاصة بتدفقات البصر بتعلم داخلي خفيف الوزن لسمات الحركة. نقترح وحدة عصبية قابلة للتدريب تُسمى MotionSqueeze، لاستخراج فعّال لسمات الحركة. وتُدمج هذه الوحدة في منتصف أي شبكة عصبية، حيث تتعلم إقامة تقابلات بين الإطارات وتحويلها إلى سمات حركية، والتي يمكن إدخالها مباشرة إلى الطبقة التالية لتحسين التنبؤ. ونُظهر أن الطريقة المقترحة تحقق تحسنًا كبيرًا على أربع معايير قياسية لتمييز الحركات، مع تكلفة إضافية ضئيلة جدًا، وتتفوق على الحد الأقصى الحالي من الأداء على مجموعتي بيانات Something-Something-V1 وV2.