HyperAIHyperAI

Command Palette

Search for a command to run...

VidTr : Transformateur vidéo sans convolution

Yanyi Zhang Xinyu Li Chunhui Liu Bing Shuai Yi Zhu Biagio Brattoli Hao Chen Ivan Marsic Joseph Tighe

Résumé

Nous introduisons Video Transformer (VidTr), une architecture à attention séparable pour la classification vidéo. Contrairement aux réseaux 3D couramment utilisés, VidTr est capable d’agréger des informations spatio-temporelles grâce à des couches d’attention empilées, tout en offrant des performances supérieures avec une efficacité accrue. Nous commençons par présenter le modèle de base de la transformer vidéo, en démontrant que ce module est capable de modéliser efficacement les aspects spatio-temporels à partir de pixels bruts, bien que cela entraîne une consommation mémoire importante. Nous proposons ensuite VidTr, qui réduit le coût mémoire de 3,3 fois tout en préservant les performances initiales. Pour optimiser davantage le modèle, nous introduisons une nouvelle méthode de pooling basée sur l’écart-type pour l’attention (pooltopKstdpool_{topK_std}pooltopKstd), qui diminue la charge computationnelle en éliminant les caractéristiques non informatives le long de la dimension temporelle. VidTr atteint des résultats de pointe sur cinq jeux de données largement utilisés, tout en nécessitant une ressource computationnelle moindre, ce qui démontre à la fois l’efficacité et l’efficacité de notre conception. Enfin, une analyse des erreurs et une visualisation des représentations montrent que VidTr se distingue particulièrement dans la prédiction des actions nécessitant une raisonnement temporel à long terme.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp