HyperAIHyperAI
il y a 17 jours

Réseau vidéo Transformer

Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann
Réseau vidéo Transformer
Résumé

Cet article présente VTN, un cadre fondé sur les transformateurs pour la reconnaissance vidéo. Inspiré des récents progrès réalisés dans le domaine des vision transformers, nous abandonnons l'approche classique en reconnaissance d'actions vidéo, basée sur les réseaux de convolution 3D (3D ConvNets), et proposons une méthode qui classe les actions en effectuant une attention sur l'ensemble de l'information séquentielle de la vidéo. Notre approche est générique et s'appuie sur n'importe quel réseau spatial 2D donné. En termes de temps d'exécution réel (wall runtime), elle s'entraîne 16,1 fois plus vite et s'exécute 5,1 fois plus vite en phase d'inférence, tout en maintenant une précision compétitive par rapport aux méthodes de pointe actuelles. Elle permet une analyse complète de la vidéo en une seule passe end-to-end, tout en nécessitant 1,5 fois moins de GFLOPs. Nous rapportons des résultats compétitifs sur Kinetics-400 et présentons une étude d'ablation des propriétés de VTN ainsi qu'un examen du compromis entre précision et vitesse d'inférence. Nous espérons que notre approche pourra servir de nouvelle référence et ouvrir une nouvelle voie de recherche dans le domaine de la reconnaissance vidéo. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md