FAKT: Frame-Action Cross-Attention-Zeitmodellierung für effiziente Aktionssegmentierung

Wir untersuchen das überwachte Aktionssegmentierungsproblem, dessen Ziel darin besteht, frameweise Aktionslabels für ein Video vorherzusagen. Um zeitliche Abhängigkeiten über lange Horizonte zu erfassen, verbessern bisherige Ansätze entweder frameweise Merkmale mittels Transformer oder verfeinern frameweise Vorhersagen mittels gelernter Aktionsmerkmale. Diese Ansätze sind jedoch rechenintensiv und ignorieren, dass Frame- und Aktionsmerkmale komplementäre Informationen enthalten, die genutzt werden können, um sowohl die Merkmale zu verbessern als auch die zeitliche Modellierung zu verfeinern. Daher schlagen wir einen effizienten Frame-Action Cross-Attention Temporal Modeling (FACT)-Rahmen vor, der die zeitliche Modellierung parallel mit Frame- und Aktionsmerkmalen durchführt und diese Parallelität nutzt, um iterativen bidirektionalen Informationsaustausch zwischen den Merkmalen zu ermöglichen und diese zu verfeinern. Das FACT-Netzwerk besteht aus (i) einem Frame-Branch, der framebasierte Informationen mittels Faltungen und Frame-Merkmale lernt, (ii) einem Aktions-Branch, der aktionsbasierte Abhängigkeiten mittels Transformer und Aktions-Tokens erlernt, sowie (iii) Cross-Attention-Modulen, die den Austausch zwischen den beiden Branches ermöglichen. Außerdem schlagen wir eine neue Matching-Verlustfunktion vor, die sicherstellt, dass jeder Aktions-Token eindeutig ein Aktionssegment kodiert, wodurch dessen Semantik besser erfasst wird. Dank unserer Architektur können wir zudem Texttranskripte von Videos nutzen, um die Aktionssegmentierung zu unterstützen. Wir evaluieren FACT auf vier Videodatenbanken (zwei egozentrisch und zwei third-person) für die Aktionssegmentierung mit und ohne Transkripte und zeigen, dass unsere Methode die aktuell beste Genauigkeit erheblich übertrifft, während sie gleichzeitig einen niedrigeren Rechenaufwand aufweist (bis zu drei Mal schneller als bestehende Transformer-basierte Methoden).