Amélioration de l'apprentissage des représentations visuelles grâce à la compréhension perceptuelle

Nous présentons une extension des autoencodeurs masqués (MAE) qui améliore les représentations apprises par le modèle en encourageant explicitement l’acquisition de caractéristiques de haut niveau liées à la scène. Cela est réalisé par : (i) l’introduction d’un terme de similarité perceptuelle entre les images générées et les images réelles ; (ii) l’intégration de plusieurs techniques issues de la littérature sur l’entraînement adversaire, notamment l’entraînement à plusieurs échelles et l’augmentation adaptative du discriminateur. Cette combinaison conduit non seulement à une reconstruction pixel par pixel améliorée, mais aussi à des représentations capables de capturer de manière plus efficace des détails de haut niveau présents dans les images. Plus important encore, nous démontrons que notre méthode, appelée Perceptual MAE, permet d’obtenir de meilleures performances sur des tâches ultérieures, surpassant ainsi les approches antérieures. Nous atteignons une précision top-1 de 78,1 % lors d’un sondage linéaire sur ImageNet-1K, et jusqu’à 88,1 % en fin-tuning, avec des résultats similaires pour d’autres tâches ultérieures, tout en n’utilisant ni modèles pré-entraînés supplémentaires ni données externes.