BEVT : Pré-entraînement de Transformers vidéo avec BERT

Cette étude s'intéresse au pré-entraînement de transformateurs vidéo basé sur BERT. Il s'agit d'une extension directe mais particulièrement intéressante à étudier, compte tenu des récents succès obtenus avec le pré-entraînement BERT appliqué aux transformateurs d'images. Nous proposons BEVT, une méthode qui découple l'apprentissage des représentations vidéo en deux composantes distinctes : l'apprentissage des représentations spatiales et l'apprentissage des dynamiques temporelles. Plus précisément, BEVT effectue d'abord un modèle d'image masquée sur des données d'images, puis réalise conjointement un modèle d'image masquée et un modèle de vidéo masquée sur des données vidéo. Cette architecture est motivée par deux observations : 1) les transformateurs entraînés sur des jeux de données d'images fournissent des priorités spatiales de qualité, qui facilitent significativement l'apprentissage des transformateurs vidéo — une tâche souvent très coûteuse en ressources computationnelles lorsqu'elle est réalisée à partir de zéro ; 2) les indices discriminatifs, à savoir les informations spatiales et temporelles nécessaires pour des prédictions correctes, varient considérablement d'une vidéo à l'autre en raison des fortes variations intra-classes et inter-classes. Nous menons des expérimentations étendues sur trois benchmarks vidéo exigeants, où BEVT obtient des résultats très prometteurs. Sur Kinetics 400, où la reconnaissance repose principalement sur des représentations spatiales discriminantes, BEVT atteint des performances comparables aux meilleurs modèles supervisés. Sur Something-Something-V2 et Diving 48, qui comprennent des vidéos dont la compréhension dépend fortement des dynamiques temporelles, BEVT dépasse clairement tous les modèles alternatifs et atteint des performances de pointe, avec des précisions Top-1 respectives de 71,4 % et 87,2 %. Le code source sera rendu disponible à l'adresse suivante : \url{https://github.com/xyzforever/BEVT}.