vor 9 Tagen

Antizipativer Video-Transformer

Rohit Girdhar, Kristen Grauman

Abstract

Wir stellen den Anticipative Video Transformer (AVT) vor, eine end-to-end-architektur basierend auf Aufmerksamkeit für die Videomodellierung, die sich auf die bereits beobachteten Teile eines Videos konzentriert, um zukünftige Aktionen vorherzusagen. Das Modell wird gemeinsam darauf trainiert, die nächste Aktion in einer Videosequenz vorherzusagen, während es gleichzeitig Frame-Feature-Encoder lernt, die prädiktiv für die Merkmale nachfolgender zukünftiger Frames sind. Im Vergleich zu bestehenden Strategien zur zeitlichen Aggregation besitzt AVT den Vorteil, sowohl die sequenzielle Abfolge der beobachteten Aktionen beizubehalten als auch lange Reichweiten-Abhängigkeiten zu erfassen – beides entscheidend für die Aufgabe der Aktionserwartung. Durch umfangreiche Experimente zeigen wir, dass AVT die bisher besten Ergebnisse auf vier etablierten Benchmarks für Aktionserwartung erzielt: EpicKitchens-55, EpicKitchens-100, EGTEA Gaze+ und 50-Salads; zudem erreicht es den ersten Platz im EpicKitchens-100 CVPR’21-Wettbewerb.