Tuning contrastif : Un petit coup de pouce pour aider les autoencodeurs masqués à oublier

Les méthodes de modélisation d’image masquée (MIM), telles que les Autoencodeurs Masqués (MAE), permettent d’apprendre efficacement une représentation riche de l’entrée. Toutefois, pour s’adapter à des tâches en aval, elles nécessitent une quantité suffisante de données étiquetées, car leurs caractéristiques riches codent non seulement les objets, mais aussi des arrière-plans moins pertinents. En revanche, les méthodes de discrimination d’instances (ID) se concentrent exclusivement sur les objets. Dans ce travail, nous étudions comment combiner l’efficacité et la scalabilité du MIM avec la capacité de l’ID à réaliser une classification en aval en l’absence de grandes quantités de données étiquetées. À cette fin, nous proposons Masked Autoencoder Contrastive Tuning (MAE-CT), une approche séquentielle qui exploite le regroupement implicite induit par l’objectif d’apprentissage contrastif des plus proches voisins (NNCLR) afin d’induire une abstraction dans les couches supérieures d’un MAE préentraîné. MAE-CT ajuste les caractéristiques riches de manière à former des groupes sémantiques d’objets sans utiliser aucune étiquette. Notamment, MAE-CT ne dépend pas d’augmentations manuellement conçues et atteint fréquemment ses meilleurs résultats en utilisant uniquement des augmentations minimales (coupure et retournement). En outre, MAE-CT est efficace en termes de ressources computationnelles, nécessitant au plus 10 % de surcoût par rapport à une re-entraînement complet de MAE. Appliqué à des modèles Vision Transformer (ViT) de grande et très grande taille, MAE-CT dépasse les méthodes auto-supervisées précédentes entraînées sur ImageNet en termes de précision en sondage linéaire, de classification à k plus proches voisins, de classification à faible nombre d’exemples ainsi que de précision en regroupement non supervisé. Avec le modèle ViT-H/16, MAE-CT atteint un nouveau record mondial en sondage linéaire avec une précision de 82,2 %.