Ist Raum-Zeit-Attention alles, was man für das Verständnis von Videos benötigt?

Wir präsentieren einen convolutionsfreien Ansatz für die Videoklassifikation, der ausschließlich auf selbstdefinierten Aufmerksamkeitsmechanismen über Raum und Zeit basiert. Unser Verfahren, benannt als „TimeSformer“, adaptiert die standardmäßige Transformer-Architektur für Videos, indem es die lernbaren spatiotemporalen Merkmale direkt aus einer Folge von framebasierten Patch-Teilen erfasst. Unsere experimentelle Studie vergleicht verschiedene Selbstaufmerksamkeits-Schemata und zeigt, dass die „geteilte Aufmerksamkeit“ – bei der zeitliche und räumliche Aufmerksamkeit innerhalb jedes Blocks getrennt angewendet werden – die höchste Klassifikationsgenauigkeit bei Videoaufgaben im Vergleich zu den untersuchten Architekturvarianten erzielt. Trotz der grundlegend neuen Architektur erreicht TimeSformer state-of-the-art Ergebnisse auf mehreren Benchmarks für Aktionserkennung, darunter die bisher bestgemeldete Genauigkeit auf Kinetics-400 und Kinetics-600. Zudem ist unser Modell im Vergleich zu 3D-Convolutional Networks schneller trainierbar, erreicht eine deutlich höhere Testeffizienz (bei nur geringfügigem Genauigkeitsverlust) und kann auch auf wesentlich längere Videosequenzen (länger als eine Minute) angewendet werden. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/facebookresearch/TimeSformer.