Les Autoencodeurs Masqués sont des Apprenants Visuels Évolutifs

Cette étude démontre que les autoencodeurs masqués (MAE) constituent des apprenants auto-supervisés évolutifs pour la vision par ordinateur. Notre approche MAE est simple : nous masquons aléatoirement des patches de l'image d'entrée et reconstruisons les pixels manquants. Elle repose sur deux principes fondamentaux. Premièrement, nous proposons une architecture asymétrique encodeur-décodeur, dans laquelle l'encodeur traite uniquement le sous-ensemble visible des patches (sans tokens de masque), tandis que le décodeur léger reconstruit l'image d'origine à partir de la représentation latente et des tokens de masque. Deuxièmement, nous constatons qu'un taux de masquage élevé de l'image d'entrée — par exemple 75 % — donne lieu à une tâche d'auto-supervision non triviale et significative. L'association de ces deux principes permet d'entraîner efficacement et efficacement de grands modèles : nous accélérons l'entraînement (d’un facteur 3 ou plus) tout en améliorant la précision. Notre approche évolutiste permet d’apprendre des modèles à forte capacité, capables de généraliser de manière performante : par exemple, un modèle ViT-Huge « vanilla » atteint la meilleure précision (87,8 %) parmi les méthodes utilisant uniquement les données ImageNet-1K. Les performances en transfert sur des tâches en aval surpassent celles de l'entraînement supervisé et montrent un comportement d'échelle prometteur.