Verbesserung von Video-Transformern für die Aktionserkennung durch VLM-gestütztes Training

Aufgrund ihrer Fähigkeit, relevante räumlich-zeitliche Videoeinbettungen zu extrahieren, sind Vision Transformers (ViTs) derzeit die besten Modelle für das Verständnis von Videoaktionen. Allerdings ist ihre Generalisierung über Domains oder Datensätze etwas begrenzt. Im Gegensatz dazu haben Visuelle Sprachmodelle (VLMs) außergewöhnliche Generalisierungsleistungen gezeigt, können aber derzeit keine Videos verarbeiten. Folglich können sie keine räumlich-zeitlichen Muster extrahieren, die für das Verständnis von Aktionen entscheidend sind. In dieser Arbeit schlagen wir den vierstufigen Prompt-Rahmen (FTP) vor, der die komplementären Stärken von ViTs und VLMs nutzt. Wir behalten die starke räumlich-zeitliche Repräsentationsfähigkeit der ViTs bei, verbessern jedoch die visuellen Kodierungen durch deren Anpassung an die Ausgaben der VLMs, um sie umfassender und allgemeiner zu gestalten. Der FTP-Rahmen fügt vier Merkmalsprozessoren hinzu, die sich auf spezifische Aspekte menschlicher Aktionen in Videos konzentrieren: Aktionskategorie, Aktionskomponenten, Aktionsbeschreibung und Kontextinformationen. Die VLMs werden nur während des Trainings eingesetzt; während der Inferenz entstehen kaum zusätzliche Rechenkosten. Unser Ansatz erzielt stets den aktuellen Stand der Technik. Zum Beispiel erreichen wir eine bemerkenswerte Top-1-Akkuratesse von 93,8 % auf Kinetics-400 und 83,4 % auf Something-Something V2, was jeweils um 2,8 % und 2,6 % höher liegt als bei VideoMAEv2.