il y a 2 mois

VideoMAE V2 : Évolution des autoencodeurs masqués vidéo avec le masquage dual

Wang, Limin ; Huang, Bingkun ; Zhao, Zhiyu ; Tong, Zhan ; He, Yinan ; Wang, Yi ; Wang, Yali ; Qiao, Yu

Résumé

L'échelle est le facteur principal pour construire un modèle de fond puissant qui pourrait bien généraliser à une variété de tâches en aval. Cependant, il reste encore difficile d'entraîner des modèles de fond vidéo avec des milliards de paramètres. Ce document montre que l'auto-encodeur masqué vidéo (VideoMAE) est un pré-entraîneur auto-supervisé évolutif et général pour la construction de modèles de fond vidéo. Nous évoluons le VideoMAE tant au niveau du modèle que des données grâce à une conception centrale. Plus précisément, nous présentons une stratégie de masquage dual pour un pré-entraînement efficace, avec un encodeur opérant sur un sous-ensemble de jetons vidéo et un décodeur traitant un autre sous-ensemble de jetons vidéo. Bien que le VideoMAE soit très efficace en raison d'un taux de masquage élevé dans l'encodeur, le masquage du décodeur peut encore réduire davantage les coûts computationnels globaux. Cela permet l'entraînement préalable efficace de modèles à l'échelle du milliard dans le domaine vidéo. Nous utilisons également un paradigme d'entraînement progressif impliquant un pré-entraînement initial sur un jeu de données non étiqueté et diversifié provenant de multiples sources, suivi d'un post-pré-entraînement sur un jeu de données mixte étiqueté. Enfin, nous entraînons avec succès un modèle ViT vidéo avec un milliard de paramètres, qui atteint une nouvelle performance state-of-the-art sur les jeux de données Kinetics (90,0 % sur K400 et 89,9 % sur K600) et Something-Something (68,7 % sur V1 et 77,0 % sur V2). De plus, nous vérifions exhaustivement les modèles ViT vidéo pré-entraînés sur une variété de tâches en aval, démontrant leur efficacité en tant qu'apprenants généraux de représentations vidéo. Le code et le modèle sont disponibles à l'adresse \url{https://github.com/OpenGVLab/VideoMAEv2}.