ActionFlowNet: تعلم تمثيل الحركة لتمييز الأفعال
حتى مع التقدم الأخير في شبكات العصبونات المتلافهة (CNN) في مهام التعرف البصري المختلفة، لا يزال نظام التعرف على الحركات الأكثر تقدماً يعتمد على خصائص الحركة المصممة يدوياً مثل تدفق الضوء (optical flow) لتحقيق أفضل الأداء. نقترح نموذج التعلم متعدد المهام ActionFlowNet لتدريب شبكة واحدة مباشرة من البكسلات الخام لتقييم تدفق الضوء بشكل مشترك أثناء التعرف على الحركات باستخدام شبكات العصبونات المتلافهة، مما يتيح التقاط الشكل والمظهر والحركة في نموذج واحد. كما نوفر رؤى حول كيفية تأثير جودة تدفق الضوء المستخلص على دقة التعرف على الحركات. يحسن نموذجنا دقة التعرف على الحركات بشكل كبير بنسبة 31% مقارنة بأنظمة التعرف على الحركات القائمة على شبكات العصبونات المتلافهة الأكثر تقدماً التي تم تدريبها بدون بيانات ذات نطاق واسع إضافية ومدخلات تدفق الضوء. دون التدريب المسبق على قواعد بيانات كبيرة ومعروفة مسبقاً، فإن نموذجنا، من خلال استغلاله الجيد لمعلومات الحركة، يحقق دقة تنافسية في التعرف مماثلة للنماذج التي تم تدريبها باستخدام قواعد بيانات كبيرة ومعروفة مثل ImageNet و Sport-1M.