HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung von Video-Transformern für die Aktionserkennung durch VLM-gestütztes Training

Hui Lu Hu Jian Albert Ali Salah Ronald Poppe

Zusammenfassung

Aufgrund ihrer Fähigkeit, relevante räumlich-zeitliche Videoeinbettungen zu extrahieren, sind Vision Transformers (ViTs) derzeit die besten Modelle für das Verständnis von Videoaktionen. Allerdings ist ihre Generalisierung über Domains oder Datensätze etwas begrenzt. Im Gegensatz dazu haben Visuelle Sprachmodelle (VLMs) außergewöhnliche Generalisierungsleistungen gezeigt, können aber derzeit keine Videos verarbeiten. Folglich können sie keine räumlich-zeitlichen Muster extrahieren, die für das Verständnis von Aktionen entscheidend sind. In dieser Arbeit schlagen wir den vierstufigen Prompt-Rahmen (FTP) vor, der die komplementären Stärken von ViTs und VLMs nutzt. Wir behalten die starke räumlich-zeitliche Repräsentationsfähigkeit der ViTs bei, verbessern jedoch die visuellen Kodierungen durch deren Anpassung an die Ausgaben der VLMs, um sie umfassender und allgemeiner zu gestalten. Der FTP-Rahmen fügt vier Merkmalsprozessoren hinzu, die sich auf spezifische Aspekte menschlicher Aktionen in Videos konzentrieren: Aktionskategorie, Aktionskomponenten, Aktionsbeschreibung und Kontextinformationen. Die VLMs werden nur während des Trainings eingesetzt; während der Inferenz entstehen kaum zusätzliche Rechenkosten. Unser Ansatz erzielt stets den aktuellen Stand der Technik. Zum Beispiel erreichen wir eine bemerkenswerte Top-1-Akkuratesse von 93,8 % auf Kinetics-400 und 83,4 % auf Something-Something V2, was jeweils um 2,8 % und 2,6 % höher liegt als bei VideoMAEv2.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung von Video-Transformern für die Aktionserkennung durch VLM-gestütztes Training | Paper | HyperAI