HyperAIHyperAI
منذ 17 أيام

AZTR: التعرف على الإجراءات في الفيديو الجوي باستخدام التكبير التلقائي والاستدلال الزمني

Xijun Wang, Ruiqi Xian, Tianrui Guan, Celso M. de Melo, Stephen M. Nogar, Aniket Bera, Dinesh Manocha
AZTR: التعرف على الإجراءات في الفيديو الجوي باستخدام التكبير التلقائي والاستدلال الزمني
الملخص

نُقدّم نهجًا جديدًا لتحديد الأفعال في مقاطع الفيديو الجوية. تم تصميم طريقتنا لمقاطع الفيديو التي تم تسجيلها باستخدام الطائرات غير المأهولة (UAV)، ويمكن تشغيلها على الأجهزة الحافة أو الأجهزة المحمولة. نُقدّم نهجًا قائماً على التعلّم يستخدم تقنية التكبير التلقائي المخصصة لتحديد الهدف البشري تلقائيًا وتصغيره أو تكبيره بشكل مناسب. مما يُسهّل استخلاص الميزات الأساسية ويقلل من الحمل الحسابي. كما نُقدّم أيضًا خوارزمية فعّالة للاستدلال الزمني لالتقاط معلومات الفعل عبر المجالات المكانية والزمنية بتكاليف حسابية قابلة للتحكم. تم تنفيذ النهج وتجريبه على الحاسوب الشخصي باستخدام وحدات معالجة رسوميات عالية الأداء، وكذلك على منصة الروبوتات RB5 منخفضة الطاقة المستخدمة في الروبوتات والطائرات المسيرة. وفي التطبيق العملي، نحقق تحسنًا بنسبة 6.1-7.4% في دقة الدرجة الأولى مقارنة بالأساليب الحالية (SOTA) على مجموعة بيانات RoCoG-v2، وتحسينًا بنسبة 8.3-10.4% على مجموعة بيانات UAV-Human، وتحسينًا بنسبة 3.2% على مجموعة بيانات Drone Action.