HyperAIHyperAI

Command Palette

Search for a command to run...

Video-Aktion-Transformer-Netzwerk

Rohit Girdhar João Carreira Carl Doersch Andrew Zisserman

Zusammenfassung

Wir stellen das Action Transformer-Modell vor, das zur Erkennung und Lokalisierung menschlicher Aktionen in Videoclips eingesetzt wird. Wir verwenden eine Transformer-basierte Architektur, um Merkmale aus dem räumlich-zeitlichen Kontext um die Person zu aggregieren, deren Aktionen wir klassifizieren möchten. Wir zeigen, dass das Modell durch die Verwendung hochaufgelöster, personenspezifischer, klassenunabhängiger Abfragen spontan lernt, einzelne Personen zu verfolgen und semantischen Kontext aus den Aktionen anderer aufzunehmen. Zudem lernt sein Aufmerksamheitsmechanismus, Hände und Gesichter zu betonen, die oft entscheidend sind, um eine Aktion zu unterscheiden – alles ohne explizite Supervision außer Kasten und Klassifikationslabels. Wir trainieren und testen unser Action Transformer-Netzwerk auf dem Atomic Visual Actions (AVA)-Datensatz und übertreffen den Stand der Technik erheblich, indem wir ausschließlich rohe RGB-Bilder als Eingabe verwenden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Video-Aktion-Transformer-Netzwerk | Paper | HyperAI