وحدة الحركة ذات المقياس المتعدد للتعرف على الإجراءات في الفيديو
بسبب الوقت الطويل المطلوب لحساب تدفق بصري (optical flow)، اقترح العديد من الدراسات الحديثة استخدام عملية الارتباط (correlation operation) كبديل لاستخراج ميزات الحركة. وعلى الرغم من أن استخدام عمليات الارتباط يُظهر تحسينًا ملحوظًا مع استهلاك ضئيل لعدد العمليات الحسابية (FLOPs)، فإنه يُضيف تأخيرًا أكبر بكثير لكل FLOP مقارنةً بعمليات الترسيب (convolution)، ويؤدي إلى زيادة ملحوظة في التأخير عند استخدام بقع بحث أكبر. ومع ذلك، فإن تقليل حجم بقعة البحث في عملية الارتباط يُعد مصيرًا محتومًا لانخفاض الأداء، نظرًا لعجزها عن التقاط الانزياحات الكبيرة. في هذا البحث، نقترح وحدة فعّالة وذات تأخير منخفض تُسمى وحدة الحركة متعددة المقياس والواعية بالحركة (Multi-Scale Motion-Aware، MSMA). تعتمد هذه الوحدة على استخدام بقع بحث أصغر عند مقاييس مختلفة لاستخلاص ميزات الحركة بشكل فعّال من الانزياحات الكبيرة. يمكن تركيب هذه الوحدة بسهولة على مختلف الهياكل العصبية العميقة (CNN backbones) وتعمل بشكل جيد في التعميم. عند تركيبها على نموذج TSM ResNet-50، تُضيف الوحدة MSMA تأخيرًا إضافيًا قدره حوالي 17.6% على وحدة معالجة الرسومات NVIDIA Tesla V100، لكنها تحقق أداءً متفوقًا على مستوى الحالة الحالية (state-of-the-art) في مجموعتي بيانات Something-Something V1 وV2، وDiving-48.