UniFormerV2 : Apprentissage spatio-temporel en dotant les Image ViTs de Video UniFormer

Apprendre une représentation discriminative spatiotemporal est le problème central de la compréhension vidéo. Récemment, les Vision Transformers (ViTs) ont démontré leur capacité à modéliser des dépendances vidéo à long terme grâce à l’attention auto-associative. Malheureusement, ils présentent des limites dans la gestion de la redondance locale dans les vidéos, en raison de la comparaison globale aveugle entre les tokens. UniFormer a réussi à atténuer ce problème en unifiant la convolution et l’attention auto-associative sous la forme d’un agrégateur de relations dans un cadre transformer. Toutefois, ce modèle nécessite une phase de pré-entraînement image très fastidieuse et complexe avant d’être fine-tuné sur des vidéos, ce qui limite fortement son utilisation pratique. À l’inverse, les ViTs open-source sont largement disponibles et déjà fortement pré-entraînés grâce à une supervision riche sur des images. À partir de ces observations, nous proposons un paradigme générique pour construire une famille puissante de réseaux vidéo, en dotant les ViTs pré-entraînés de conceptions efficaces inspirées d’UniFormer. Nous appelons cette famille UniFormerV2, car elle conserve le style concis du bloc UniFormer. Toutefois, elle intègre de nouveaux agrégateurs de relations locaux et globaux, permettant un équilibre préférentiel entre précision et coût computationnel en combinant de manière fluide les avantages des ViTs et d’UniFormer. Sans aucune complication supplémentaire, notre UniFormerV2 atteint des performances de pointe sur 8 benchmarks vidéo populaires, incluant Kinetics-400/600/700 et Moments in Time (liés à la scène), Something-Something V1/V2 (liés au temps), ActivityNet non-trimé et HACS. En particulier, il s’agit, à notre connaissance, du premier modèle à atteindre 90 % de précision top-1 sur Kinetics-400. Les modèles seront publiés ultérieurement.