vor 17 Tagen

Video Transformer Network

Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann

Abstract

Diese Arbeit präsentiert VTN, einen auf Transformers basierenden Ansatz für die Videoerkennung. Angeregt durch jüngste Fortschritte bei Vision Transformers verzichten wir auf die herkömmliche Vorgehensweise in der Videoaktionserkennung, die auf 3D-ConvNets beruht, und stellen eine Methode vor, die Aktionen durch die Aufmerksamkeit auf die gesamte Sequenzinformation des Videos klassifiziert. Unser Ansatz ist generisch und baut auf beliebigen vorgegebenen 2D-Raumnetzwerken auf. In Bezug auf die Laufzeit an der Wand (wall runtime) trainiert er $16{,}1\times$ schneller und läuft während der Inferenz $5{,}1\times$ schneller, während er gleichzeitig eine konkurrenzfähige Genauigkeit im Vergleich zu anderen state-of-the-art-Methoden aufrechterhält. Er ermöglicht die vollständige Videoanalyse in einer einzigen end-to-end-Durchlauf, wobei $1{,}5\times$ weniger GFLOPs benötigt werden. Wir berichten über konkurrenzfähige Ergebnisse auf Kinetics-400 und präsentieren eine Ablationsstudie zu den Eigenschaften von VTN sowie zum Kompromiss zwischen Genauigkeit und Inferenzgeschwindigkeit. Wir hoffen, dass unser Ansatz als neue Baseline dienen und eine neue Forschungsrichtung im Bereich der Videoerkennung einleiten wird. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md