PAN: Hin zum schnellen Aktionserkennung durch Lernen der Persistenz von Erscheinungsbildern

Die effiziente Modellierung dynamischer Bewegungsinformationen in Videos ist entscheidend für die Aktionserkennung. Die meisten aktuellen State-of-the-Art-Methoden stützen sich stark auf dichte Optische Flussdaten als Bewegungsrepräsentation. Obwohl die Kombination aus Optischem Fluss und RGB-Bildern hervorragende Erkennungsergebnisse erzielt, ist die Extraktion des Optischen Flusses äußerst zeitaufwendig. Dies ist zweifellos ein Nachteil für die Echtzeit-Aktionserkennung. In diesem Paper beleuchten wir einen Ansatz zur schnellen Aktionserkennung, indem wir die Abhängigkeit vom Optischen Fluss reduzieren. Unsere Motivation beruht auf der Beobachtung, dass kleine Verschiebungen an Bewegungsgrenzen die entscheidenden Merkmale zur Unterscheidung von Aktionen darstellen. Daraus leiten wir einen neuen Bewegungscue ein, genannt Persistence of Appearance (PA). Im Gegensatz zum Optischen Fluss konzentriert sich unsere PA stärker auf die Extraktion von Bewegungsinformationen an Grenzflächen. Zudem ist sie deutlich effizienter, da sie lediglich die pixelweisen Differenzen im Merkmalsraum akkumuliert, anstatt einen umfassenden, patchbasierten Suchprozess aller möglichen Bewegungsvektoren durchzuführen. Unser PA ist bei der Bewegungsmodellierung um mehr als das 1000-fache schneller (8196 fps gegenüber 8 fps) als herkömmlicher Optischer Fluss. Um die kurzfristige Dynamik in PA auf lange Zeiträume zu erweitern, entwickeln wir zudem eine globale zeitliche Fusionsstrategie namens Various-timescale Aggregation Pooling (VAP), die langfristige zeitliche Beziehungen über verschiedene Zeitskalen adaptiv modellieren kann. Schließlich integrieren wir den vorgeschlagenen PA und VAP zu einem einheitlichen Framework, dem Persistent Appearance Network (PAN), das über eine starke zeitliche Modellierungsfähigkeit verfügt. Umfassende Experimente an sechs anspruchsvollen Benchmarks für Aktionserkennung zeigen, dass unser PAN gegenwärtige State-of-the-Art-Methoden bei niedrigem FLOPs-Aufwand übertrifft. Der Quellcode und die Modelle sind unter folgender Adresse verfügbar: https://github.com/zhang-can/PAN-PyTorch.