Command Palette
Search for a command to run...
Video Transformer Network
Video Transformer Network
Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann
Zusammenfassung
Diese Arbeit präsentiert VTN, einen auf Transformers basierenden Ansatz für die Videoerkennung. Angeregt durch jüngste Fortschritte bei Vision Transformers verzichten wir auf die herkömmliche Vorgehensweise in der Videoaktionserkennung, die auf 3D-ConvNets beruht, und stellen eine Methode vor, die Aktionen durch die Aufmerksamkeit auf die gesamte Sequenzinformation des Videos klassifiziert. Unser Ansatz ist generisch und baut auf beliebigen vorgegebenen 2D-Raumnetzwerken auf. In Bezug auf die Laufzeit an der Wand (wall runtime) trainiert er 16,1× schneller und läuft während der Inferenz 5,1× schneller, während er gleichzeitig eine konkurrenzfähige Genauigkeit im Vergleich zu anderen state-of-the-art-Methoden aufrechterhält. Er ermöglicht die vollständige Videoanalyse in einer einzigen end-to-end-Durchlauf, wobei 1,5× weniger GFLOPs benötigt werden. Wir berichten über konkurrenzfähige Ergebnisse auf Kinetics-400 und präsentieren eine Ablationsstudie zu den Eigenschaften von VTN sowie zum Kompromiss zwischen Genauigkeit und Inferenzgeschwindigkeit. Wir hoffen, dass unser Ansatz als neue Baseline dienen und eine neue Forschungsrichtung im Bereich der Videoerkennung einleiten wird. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md