HyperAIHyperAI
il y a 17 jours

ViC-MAE : Apprentissage non supervisé de représentations à partir d'images et de vidéos à l'aide d'autoencodeurs masqués contrastifs

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez
ViC-MAE : Apprentissage non supervisé de représentations à partir d'images et de vidéos à l'aide d'autoencodeurs masqués contrastifs
Résumé

Nous proposons ViC-MAE, un modèle qui combine les Autoencodeurs Masqués (MAE) et l’apprentissage contrastif. ViC-MAE est entraîné à partir d’une représentation globale obtenue en agrégant les représentations locales apprises sous une perte de reconstruction MAE, tout en exploitant cette représentation dans un objectif contrastif entre images et cadres vidéo. Nous démontrons que les représentations visuelles apprises avec ViC-MAE se généralisent efficacement aux tâches de classification d’images et de vidéos. En particulier, ViC-MAE atteint des performances de transfert de pointe pour la tâche vidéo → image sur ImageNet-1k, surpassant récemment OmniMAE : une précision top-1 de 86 % (+1,3 % d’amélioration absolue) lorsqu’il est entraîné sur les mêmes données, et 87,1 % (+2,4 % d’amélioration absolue) lorsqu’il est entraîné sur des données supplémentaires. Par ailleurs, ViC-MAE dépasse la plupart des autres méthodes sur les benchmarks vidéo, obtenant une précision top-1 de 75,9 % sur le défi exigeant Something-Something-v2. Lorsqu’il est entraîné sur des vidéos et des images provenant d’une combinaison diversifiée de jeux de données, notre méthode maintient un équilibre optimal des performances de transfert entre les benchmarks de classification d’images et de vidéos, se classant seulement au second rang derrière la meilleure méthode supervisée.