Video-Aktion-Transformer-Netzwerk

Wir stellen das Action Transformer-Modell vor, das zur Erkennung und Lokalisierung menschlicher Aktionen in Videoclips eingesetzt wird. Wir verwenden eine Transformer-basierte Architektur, um Merkmale aus dem räumlich-zeitlichen Kontext um die Person zu aggregieren, deren Aktionen wir klassifizieren möchten. Wir zeigen, dass das Modell durch die Verwendung hochaufgelöster, personenspezifischer, klassenunabhängiger Abfragen spontan lernt, einzelne Personen zu verfolgen und semantischen Kontext aus den Aktionen anderer aufzunehmen. Zudem lernt sein Aufmerksamheitsmechanismus, Hände und Gesichter zu betonen, die oft entscheidend sind, um eine Aktion zu unterscheiden – alles ohne explizite Supervision außer Kasten und Klassifikationslabels. Wir trainieren und testen unser Action Transformer-Netzwerk auf dem Atomic Visual Actions (AVA)-Datensatz und übertreffen den Stand der Technik erheblich, indem wir ausschließlich rohe RGB-Bilder als Eingabe verwenden.