Klassifikation langer Filmclips mit Zustandsraum-Videomodellen

Die meisten modernen Videoerkennungsmodelle sind darauf ausgelegt, auf kurzen Videoclips (z. B. 5–10 Sekunden lang) zu operieren. Daher ist die Anwendung solcher Modelle auf Aufgaben der Langfilmverstehens schwierig, die typischerweise anspruchsvolle langreichweitige zeitliche Schlussfolgerungen erfordern. Die kürzlich vorgestellten Video-Transformer adressieren diesen Aspekt teilweise durch die Verwendung von langreichweitiger zeitlicher Selbst-Attention. Aufgrund der quadratischen Komplexität der Selbst-Attention sind solche Modelle jedoch oft kostspielig und praktisch kaum verwendbar. Stattdessen schlagen wir ViS4mer vor, ein effizientes Modell für langreichweitige Videos, das die Stärken der Selbst-Attention mit der kürzlich eingeführten strukturierten Zustandsraum-Sequenz (S4)-Schicht kombiniert. Unser Modell verwendet einen herkömmlichen Transformer-Encoder zur Extraktion kurzfristiger räumlich-zeitlicher Merkmale und einen mehrskaligen zeitlichen S4-Decoder zur anschließenden langreichweitigen zeitlichen Schlussfolgerung. Durch schrittweise Reduktion der räumlich-zeitlichen Merkmalsauflösung und der Kanaldimension in jeder Decoder-Schicht lernt ViS4mer komplexe langreichweitige räumlich-zeitliche Abhängigkeiten in Videos. Zudem ist ViS4mer um den Faktor 2,63 schneller und benötigt 8-mal weniger GPU-Speicher als das entsprechende rein auf Selbst-Attention basierende Modell. Darüber hinaus erzielt ViS4mer auf dem Long Video Understanding (LVU)-Benchmark state-of-the-art Ergebnisse in sechs von neun Aufgaben zur Klassifikation langformiger Filmvideos. Außerdem zeigen wir, dass unser Ansatz erfolgreich auf andere Domänen generalisiert, wobei er wettbewerbsfähige Ergebnisse auf den Datensätzen Breakfast und COIN für prozedurale Aktivitäten erzielt. Der Quellcode ist öffentlich verfügbar unter: https://github.com/md-mohaiminul/ViS4mer.