il y a 18 jours

VidTr : Transformateur vidéo sans convolution

Yanyi Zhang, Xinyu Li, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe

Résumé

Nous introduisons Video Transformer (VidTr), une architecture à attention séparable pour la classification vidéo. Contrairement aux réseaux 3D couramment utilisés, VidTr est capable d’agréger des informations spatio-temporelles grâce à des couches d’attention empilées, tout en offrant des performances supérieures avec une efficacité accrue. Nous commençons par présenter le modèle de base de la transformer vidéo, en démontrant que ce module est capable de modéliser efficacement les aspects spatio-temporels à partir de pixels bruts, bien que cela entraîne une consommation mémoire importante. Nous proposons ensuite VidTr, qui réduit le coût mémoire de 3,3 fois tout en préservant les performances initiales. Pour optimiser davantage le modèle, nous introduisons une nouvelle méthode de pooling basée sur l’écart-type pour l’attention ($pool_{topK_std}$), qui diminue la charge computationnelle en éliminant les caractéristiques non informatives le long de la dimension temporelle. VidTr atteint des résultats de pointe sur cinq jeux de données largement utilisés, tout en nécessitant une ressource computationnelle moindre, ce qui démontre à la fois l’efficacité et l’efficacité de notre conception. Enfin, une analyse des erreurs et une visualisation des représentations montrent que VidTr se distingue particulièrement dans la prédiction des actions nécessitant une raisonnement temporel à long terme.