il y a 2 mois

Distillation Vidéo Masquée : Réflexion sur la Modélisation de Caractéristiques Masquées pour l'Apprentissage Auto-supervisé de Représentations Vidéo

Rui Wang; Dongdong Chen; Zuxuan Wu; Yinpeng Chen; Xiyang Dai; Mengchen Liu; Lu Yuan; Yu-Gang Jiang

Résumé

Grâce au masquage visuel, l'apprentissage de représentations vidéo auto-supervisé a connu des progrès remarquables. Cependant, les méthodes existantes se concentrent sur l'apprentissage de représentations à partir de zéro en reconstruisant des caractéristiques de bas niveau telles que les valeurs RGB des pixels bruts. Dans cet article, nous proposons le masquage et la distillation vidéo (MVD), un cadre simple mais efficace en deux étapes pour le masquage de caractéristiques dans l'apprentissage de représentations vidéo : premièrement, nous pré-entraînons un modèle d'image (ou de vidéo) en récupérant les caractéristiques de bas niveau des patchs masqués, puis nous utilisons ces caractéristiques comme cibles pour le masquage de caractéristiques. Pour le choix des modèles enseignants, nous observons que les élèves formés par des enseignants vidéo performe mieux sur des tâches vidéo temporellement complexes, tandis que les enseignants image transfèrent des représentations spatiales plus robustes pour des tâches vidéo spatialement complexes. L'analyse visuelle indique également que différents enseignants produisent différents schémas d'apprentissage chez les élèves. Guidés par cette observation, nous concevons une méthode d'enseignement conjoint spatial-temporel pour MVD. Plus précisément, nous distillons les modèles élèves à partir à la fois d'enseignants vidéo et d'enseignants image par le biais du masquage de caractéristiques. De nombreux résultats expérimentaux montrent que les transformateurs vidéo pré-entraînés avec l'enseignement conjoint spatial-temporel surpassent les modèles distillés avec un seul enseignant sur une multitude de jeux de données vidéo. Notre MVD avec ViT standard atteint des performances inédites comparées aux méthodes supervisées ou auto-supervisées précédentes sur plusieurs tâches descendantes vidéo difficiles. Par exemple, avec le modèle ViT-Large, notre MVD atteint 86,4 % et 76,7 % d'exactitude Top-1 sur Kinetics-400 et Something-Something-v2, surpassant VideoMAE respectivement de 1,2 % et 2,4 %. Lorsque le modèle ViT-Huge plus grand est utilisé, MVD atteint la performance inédite avec 77,3 % d'exactitude Top-1 sur Something-Something-v2 et 41,1 mAP sur AVA v2.2. Le code sera disponible à l'adresse \url{https://github.com/ruiwang2021/mvd}.