HyperAIHyperAI

Command Palette

Search for a command to run...

Video Transformer Network

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

Zusammenfassung

Diese Arbeit präsentiert VTN, einen auf Transformers basierenden Ansatz für die Videoerkennung. Angeregt durch jüngste Fortschritte bei Vision Transformers verzichten wir auf die herkömmliche Vorgehensweise in der Videoaktionserkennung, die auf 3D-ConvNets beruht, und stellen eine Methode vor, die Aktionen durch die Aufmerksamkeit auf die gesamte Sequenzinformation des Videos klassifiziert. Unser Ansatz ist generisch und baut auf beliebigen vorgegebenen 2D-Raumnetzwerken auf. In Bezug auf die Laufzeit an der Wand (wall runtime) trainiert er 16,1×16{,}1\times16,1× schneller und läuft während der Inferenz 5,1×5{,}1\times5,1× schneller, während er gleichzeitig eine konkurrenzfähige Genauigkeit im Vergleich zu anderen state-of-the-art-Methoden aufrechterhält. Er ermöglicht die vollständige Videoanalyse in einer einzigen end-to-end-Durchlauf, wobei 1,5×1{,}5\times1,5× weniger GFLOPs benötigt werden. Wir berichten über konkurrenzfähige Ergebnisse auf Kinetics-400 und präsentieren eine Ablationsstudie zu den Eigenschaften von VTN sowie zum Kompromiss zwischen Genauigkeit und Inferenzgeschwindigkeit. Wir hoffen, dass unser Ansatz als neue Baseline dienen und eine neue Forschungsrichtung im Bereich der Videoerkennung einleiten wird. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Video Transformer Network | Paper | HyperAI