HyperAIHyperAI
vor 17 Tagen

AZTR: Aerial Video Action Recognition mit Auto Zoom und temporalem Reasoning

Xijun Wang, Ruiqi Xian, Tianrui Guan, Celso M. de Melo, Stephen M. Nogar, Aniket Bera, Dinesh Manocha
AZTR: Aerial Video Action Recognition mit Auto Zoom und temporalem Reasoning
Abstract

Wir stellen einen neuartigen Ansatz für die Aktionserkennung in Luftbildvideos vor. Unsere Methode ist speziell für Videos entwickelt, die mit Drohnen (UAVs) aufgenommen wurden, und kann sowohl auf Edge- als auch auf mobilen Geräten betrieben werden. Wir präsentieren einen lernbasierten Ansatz, der eine angepasste Auto-Zoom-Funktion nutzt, um menschliche Objekte automatisch zu erkennen und sie entsprechend zu skalieren. Dadurch wird die Extraktion zentraler Merkmale vereinfacht und der Rechenaufwand reduziert. Zudem stellen wir einen effizienten Algorithmus zur zeitlichen Schlussfolgerung vor, der die Aktioninformationen sowohl im räumlichen als auch im zeitlichen Bereich innerhalb eines kontrollierbaren Rechenaufwands erfassen kann. Unser Ansatz wurde sowohl auf Desktop-Systemen mit leistungsstarken GPUs als auch auf der energieeffizienten Robotics RB5-Plattform für Roboter und Drohnen implementiert und evaluiert. In der Praxis erreichen wir eine Verbesserung um 6,1–7,4 % im Top-1-Accuracy auf dem RoCoG-v2-Datensatz, 8,3–10,4 % auf dem UAV-Human-Datensatz und 3,2 % auf dem Drone Action-Datensatz im Vergleich zu den derzeit besten Verfahren (SOTA).