HyperAIHyperAI
il y a 11 jours

Les Autoencodeurs Masqués sont des Apprenants Visuels Évolutifs

Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick
Les Autoencodeurs Masqués sont des Apprenants Visuels Évolutifs
Résumé

Cette étude démontre que les autoencodeurs masqués (MAE) constituent des apprenants auto-supervisés évolutifs pour la vision par ordinateur. Notre approche MAE est simple : nous masquons aléatoirement des patches de l'image d'entrée et reconstruisons les pixels manquants. Elle repose sur deux principes fondamentaux. Premièrement, nous proposons une architecture asymétrique encodeur-décodeur, dans laquelle l'encodeur traite uniquement le sous-ensemble visible des patches (sans tokens de masque), tandis que le décodeur léger reconstruit l'image d'origine à partir de la représentation latente et des tokens de masque. Deuxièmement, nous constatons qu'un taux de masquage élevé de l'image d'entrée — par exemple 75 % — donne lieu à une tâche d'auto-supervision non triviale et significative. L'association de ces deux principes permet d'entraîner efficacement et efficacement de grands modèles : nous accélérons l'entraînement (d’un facteur 3 ou plus) tout en améliorant la précision. Notre approche évolutiste permet d’apprendre des modèles à forte capacité, capables de généraliser de manière performante : par exemple, un modèle ViT-Huge « vanilla » atteint la meilleure précision (87,8 %) parmi les méthodes utilisant uniquement les données ImageNet-1K. Les performances en transfert sur des tâches en aval surpassent celles de l'entraînement supervisé et montrent un comportement d'échelle prometteur.

Les Autoencodeurs Masqués sont des Apprenants Visuels Évolutifs | Articles de recherche récents | HyperAI