HyperAIHyperAI
vor 17 Tagen

MITFAS: Mutual Information-basierte temporale Merkmalsausrichtung und -Sampling für die Aktionserkennung in Luftbild-Videos

Ruiqi Xian, Xijun Wang, Dinesh Manocha
MITFAS: Mutual Information-basierte temporale Merkmalsausrichtung und -Sampling für die Aktionserkennung in Luftbild-Videos
Abstract

Wir präsentieren einen neuartigen Ansatz zur Aktenerkennung in UAV-Videos. Unsere Formulierung ist darauf ausgelegt, Verdeckungen und Veränderungen der Perspektive zu bewältigen, die durch die Bewegung eines UAV verursacht werden. Wir nutzen das Konzept der gegenseitigen Information, um die Bereiche, die menschliche Aktionen oder Bewegungen im zeitlichen Verlauf entsprechen, zu berechnen und zu alignen. Dadurch kann unser Erkennungsmodell von den Schlüsselmerkmalen, die mit der Bewegung assoziiert sind, lernen. Außerdem schlagen wir eine neuartige Frame-Sampling-Methode vor, die gemeinsame gegenseitige Information nutzt, um die informativsten Frame-Sequenzen in UAV-Videos zu ermitteln. Wir haben unseren Ansatz mit X3D integriert und die Leistung auf mehreren Datensätzen evaluiert. In der Praxis erreichen wir eine Verbesserung der Top-1-Accuracy um 18,9 % gegenüber aktuellen state-of-the-art-Methoden auf UAV-Human (Li et al., 2021), 7,3 % auf Drone-Action (Perera et al., 2019) und 7,16 % auf NEC Drones (Choi et al., 2020).