HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End raumzeitliche Aktionserkennung mit Video-Transformern

Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab

Zusammenfassung

Die leistungsfähigsten Modelle zur räumlich-zeitlichen Aktionserkennung verwenden externe Personvorschläge und komplexe externe Speicherbanken. Wir schlagen ein vollständig end-to-end, rein transformer-basiertes Modell vor, das ein Eingabevideo direkt verarbeitet und Tubelets ausgibt – eine Folge von Begrenzungsrahmen (bounding boxes) und den Aktionen in jedem Frame. Unser flexibles Modell kann mit entweder spärlicher Begrenzungsrahmenerkennung auf einzelnen Frames oder vollständigen Tubelet-Annotierungen trainiert werden. In beiden Fällen generiert es kohärente Tubelets als Ausgabe. Darüber hinaus benötigt unser end-to-end-Modell keine zusätzliche Vorschlagsgenerierung im Vorverarbeitungsschritt oder Non-Maximum-Suppression im Nachbearbeitungsschritt. Wir führen umfangreiche Abstraktionsversuche durch und erzielen signifikante Fortschritte bei den Stand der Technik-Ergebnissen auf vier verschiedenen Benchmarks für die räumlich-zeitliche Aktionserkennung, sowohl mit spärlichen Schlüsselbildern (sparse keyframes) als auch mit vollständigen Tubelet-Annotierungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
End-to-End raumzeitliche Aktionserkennung mit Video-Transformern | Paper | HyperAI