Transformateur vidéo auto-supervisé

Dans cet article, nous proposons une méthode d'apprentissage auto-supervisé pour les transformateurs vidéo basée sur des données vidéo non étiquetées. À partir d'une vidéo donnée, nous générons des vues spatio-temporelles locales et globales aux tailles spatiales et aux fréquences d'images variables. Notre objectif auto-supervisé vise à aligner les caractéristiques de ces différentes vues représentant la même vidéo, tout en étant invariant aux variations spatio-temporelles des actions. À notre connaissance, l'approche proposée est la première à réduire la dépendance aux exemples négatifs ou aux mémoires dédiées dans les transformateurs vidéo auto-supervisés (SVT). En outre, grâce à la flexibilité des modèles Transformer, le SVT permet un traitement vidéo lent-rapide au sein d'une seule architecture, grâce à une encodage positionnel dynamique, et prend en charge la modélisation des relations à long terme le long des dimensions spatio-temporelles. Notre méthode obtient de bons résultats sur quatre benchmarks de reconnaissance d'actions (Kinetics-400, UCF-101, HMDB-51 et SSv2), tout en convergeant plus rapidement avec de petits tailles de batch. Code : https://git.io/J1juJ