vor 11 Tagen

TemporalMaxer: Temporale Kontextmaximierung mit lediglich Max-Pooling für die zeitliche Aktionslokalisierung

Tuan N. Tang, Kwonyoung Kim, Kwanghoon Sohn

Abstract

Die zeitliche Aktionsspezifizierung (Temporal Action Localization, TAL) ist eine herausfordernde Aufgabe im Bereich des Videoverstehens, die darauf abzielt, Aktionen innerhalb einer Videosequenz zu identifizieren und räumlich zu lokalisieren. In jüngsten Studien wurde die Bedeutung der Anwendung von langfristigen zeitlichen Kontextmodellierungs-(Temporal Context Modeling, TCM)-Blöcken auf extrahierte Videoclip-Features hervorgehoben, beispielsweise durch den Einsatz komplexer Selbst-Attention-Mechanismen. In diesem Artikel präsentieren wir die bisher einfachste Methode zur Lösung dieser Aufgabe und argumentieren, dass die extrahierten Videoclip-Features bereits ausreichend informativ sind, um herausragende Leistung zu erzielen, ohne auf anspruchsvolle Architekturen angewiesen zu sein. Dazu führen wir TemporalMaxer ein, das die langfristige zeitliche Kontextmodellierung minimiert, gleichzeitig jedoch die Information aus den extrahierten Videoclip-Features maximiert, indem es ein einfaches, parameterfreies und lokal arbeitendes Max-Pooling-Block verwendet. Durch die Auswahl nur der kritischsten Informationen für benachbarte und lokale Clip-Embeddings führt dieses Block zu einem effizienteren TAL-Modell. Wir zeigen, dass TemporalMaxer andere state-of-the-art-Methoden, die langfristige TCM-Techniken wie Selbst-Attention nutzen, auf verschiedenen TAL-Datensätzen übertrifft, während es signifikant weniger Parameter und rechnerische Ressourcen erfordert. Der Quellcode für unseren Ansatz ist öffentlich unter https://github.com/TuanTNG/TemporalMaxer verfügbar.