End-to-End raumzeitliche Aktionserkennung mit Video-Transformern

Die leistungsfähigsten Modelle zur räumlich-zeitlichen Aktionserkennung verwenden externe Personvorschläge und komplexe externe Speicherbanken. Wir schlagen ein vollständig end-to-end, rein transformer-basiertes Modell vor, das ein Eingabevideo direkt verarbeitet und Tubelets ausgibt – eine Folge von Begrenzungsrahmen (bounding boxes) und den Aktionen in jedem Frame. Unser flexibles Modell kann mit entweder spärlicher Begrenzungsrahmenerkennung auf einzelnen Frames oder vollständigen Tubelet-Annotierungen trainiert werden. In beiden Fällen generiert es kohärente Tubelets als Ausgabe. Darüber hinaus benötigt unser end-to-end-Modell keine zusätzliche Vorschlagsgenerierung im Vorverarbeitungsschritt oder Non-Maximum-Suppression im Nachbearbeitungsschritt. Wir führen umfangreiche Abstraktionsversuche durch und erzielen signifikante Fortschritte bei den Stand der Technik-Ergebnissen auf vier verschiedenen Benchmarks für die räumlich-zeitliche Aktionserkennung, sowohl mit spärlichen Schlüsselbildern (sparse keyframes) als auch mit vollständigen Tubelet-Annotierungen.