UniFormer : Transformer unifié pour un apprentissage efficace des représentations spatio-temporelles

Il s'agit d'une tâche difficile d'apprendre des sémantiques spatio-temporelles riches et multi-échelles à partir de vidéos à haute dimension, en raison de la grande redondance locale et de la dépendance globale complexe entre les trames vidéo. Les avancées récentes dans ce domaine ont été principalement alimentées par les réseaux de neurones convolutifs 3D et les vision transformers. Bien que la convolution 3D puisse efficacement agréger le contexte local pour atténuer la redondance locale à partir d'un petit voisinage 3D, elle manque de capacité à capturer la dépendance globale en raison de son champ réceptif limité. À l'inverse, les vision transformers peuvent efficacement modéliser les dépendances à longue portée grâce à leur mécanisme d'attention auto-attention, tout en étant limités dans la réduction de la redondance locale, en raison de leur comparaison de similarité aveugle entre tous les tokens à chaque couche. À partir de ces observations, nous proposons un nouveau modèle, le Unified transFormer (UniFormer), qui intègre de manière fluide les avantages de la convolution 3D et de l'attention spatio-temporelle auto-attention dans une architecture transformer concise, offrant un équilibre préférentiel entre complexité computationnelle et précision. Contrairement aux transformers traditionnels, notre agrégateur de relations traite à la fois la redondance et la dépendance spatio-temporelles en apprenant respectivement l'affinité locale et globale entre les tokens dans les couches superficielles et profondes. Nous menons des expériences étendues sur des benchmarks vidéo populaires, tels que Kinetics-400, Kinetics-600, et Something-Something V1 & V2. En n'utilisant qu'un pré-entraînement sur ImageNet-1K, notre UniFormer atteint des précisions top-1 de 82,9 % et 84,8 % sur Kinetics-400 et Kinetics-600 respectivement, tout en nécessitant 10 fois moins de GFLOPs que les méthodes de pointe actuelles. Pour Something-Something V1 et V2, UniFormer atteint de nouvelles performances de pointe, avec des précisions top-1 de 60,8 % et 71,4 % respectivement.