PMI Sampler: Patch-Similaritätsgesteuerte Frame-Auswahl für die Aerial-Action-Erkennung

Wir präsentieren einen neuen Algorithmus zur Auswahl informativer Frames für die Aktionserkennung in Videos. Unser Ansatz ist speziell für Luftaufnahmen konzipiert, die mit einer sich bewegenden Kamera aufgenommen wurden, bei denen menschliche Akteure nur eine geringe räumliche Auflösung innerhalb der Videoframes einnehmen. Unser Algorithmus nutzt die Bewegungsbiase, die in solchen Luftbildvideos typischerweise vorhanden ist, um Frames mit hoher Bewegungssalienz auszuwählen. Wir führen den Begriff des Patch-Mutual-Information (PMI)-Scores ein, um die Bewegungsbiase zwischen benachbarten Frames quantitativ zu erfassen, indem die Ähnlichkeit von Bildpatches gemessen wird. Mit diesem Score bewerten wir den Grad an diskriminativer Bewegungsinformation, die ein Frame im Vergleich zu einem anderen enthält. Wir stellen eine adaptive Frame-Auswahlstrategie vor, die auf verschobenen leaky ReLU-Funktionen und der kumulativen Verteilungsfunktion basiert, wodurch sichergestellt wird, dass die ausgewählten Frames alle wesentlichen Segmente mit hoher Bewegungssalienz umfassend abdecken. Unser Ansatz lässt sich nahtlos in beliebige Aktionserkennungsmodelle integrieren, um deren Genauigkeit zu verbessern. In der Praxis erzielt unsere Methode eine relative Verbesserung der Top-1-Accuracy um 2,2 bis 13,8 % auf dem UAV-Human-Datensatz, 6,8 % auf dem NEC Drone-Datensatz und 9,0 % auf dem Diving48-Datensatz.