MITFAS: محاذاة وعينة الميزات الزمنية القائمة على المعلومات المتبادلة للتعرف على الإجراءات في الفيديو الجوي

نقدم نهجًا جديدًا للتعرف على الحركات في مقاطع الفيديو التي تسجلها الطائرات بدون طيار (UAV). تم تصميم صيغتنا لمعالجة الازدحام والانحرافات في الزاوية الناتجة عن حركة الطائرة بدون طيار. نستخدم مفهوم المعلومات المتبادلة لحساب ومحاذاة المناطق المرتبطة بالحركة البشرية أو الحركات في المجال الزمني. هذا يمكّن نموذج التعرف لدينا من التعلم من الميزات الأساسية المرتبطة بالحركة. كما نقترح طريقة جديدة لاستخلاص الإطارات (frame sampling) تعتمد على المعلومات المتبادلة المشتركة لاستخلاص التسلسل الأكثر إفادة من الإطارات في مقاطع الفيديو الخاصة بالطائرات بدون طيار. وقد قمنا بدمج نهجنا مع نموذج X3D وقيّمنا الأداء على عدة مجموعات بيانات. في الممارسة العملية، حققنا تحسنًا بنسبة 18.9٪ في دقة الدرجة الأولى (Top-1 accuracy) مقارنةً بالأساليب الحالية الأفضل في مجالها على مجموعة بيانات UAV-Human (Li et al., 2021)، وتحسنًا بنسبة 7.3٪ على مجموعة بيانات Drone-Action (Perera et al., 2019)، وتحسنًا بنسبة 7.16٪ على مجموعة بيانات NEC Drones (Choi et al., 2020).