HyperAIHyperAI
il y a 17 jours

Transformers à plusieurs vues pour la reconnaissance vidéo

Shen Yan, Xuehan Xiong, Anurag Arnab, Zhichao Lu, Mi Zhang, Chen Sun, Cordelia Schmid
Transformers à plusieurs vues pour la reconnaissance vidéo
Résumé

L’interprétation vidéo nécessite des raisonnements à plusieurs résolutions spatio-temporelles — allant des mouvements fins et courts aux événements se déroulant sur des durées plus longues. Bien que les architectures de transformateurs aient récemment permis d’atteindre l’état de l’art, elles n’ont pas explicitement modélisé différentes résolutions spatio-temporelles. À cet effet, nous proposons les Multiview Transformers for Video Recognition (MTV). Notre modèle repose sur des encodeurs séparés permettant de représenter différentes perspectives de la vidéo d’entrée, reliés entre eux par des connexions latérales afin de fusionner l’information entre ces perspectives. Nous présentons des études d’ablation approfondies de notre modèle, montrant que MTV obtient systématiquement de meilleurs résultats que ses homologues à vue unique en termes de précision et de coût computationnel, sur une large gamme de tailles de modèles. En outre, nous atteignons des résultats de pointe sur six jeux de données standards, et améliorons encore davantage grâce à un préentraînement à grande échelle. Le code et les points de contrôle sont disponibles à l’adresse suivante : https://github.com/google-research/scenic/tree/main/scenic/projects/mtv.