SimMIM : Un cadre simple pour le modèle d'image masquée

Cet article présente SimMIM, un cadre simple pour le modèle d’image masquée. Nous simplifions les approches récemment proposées, sans recourir à des conceptions spéciales telles que le masquage par blocs ou la tokenisation via une VAE discrète ou un regroupement (clustering). Afin d’identifier les éléments qui permettent au modèle d’apprentissage par masquage d’image à acquérir de bonnes représentations, nous étudions systématiquement les composants principaux de notre cadre. Nous constatons que des conceptions simples pour chacun d’entre eux révèlent une performance remarquable en apprentissage de représentations : 1) le masquage aléatoire de l’image d’entrée avec une taille de patch masqué modérément grande (par exemple, 32) constitue une tâche pré-texte très efficace ; 2) la prédiction directe des pixels bruts en valeurs RGB par régression linéaire s’avère tout aussi performante que les approches de classification par patch reposant sur des architectures complexes ; 3) le module de prédiction peut être aussi léger qu’une couche linéaire, tout en atteignant des performances équivalentes à celles des modules plus lourds. En utilisant ViT-B, notre approche atteint une précision top-1 de 83,8 % sur ImageNet-1K après fine-tuning, en pré-entraînant également sur ce même jeu de données, dépassant ainsi l’approche précédemment meilleure de +0,6 %. Lorsqu’elle est appliquée à un modèle plus grand d’environ 650 millions de paramètres, SwinV2-H, elle atteint une précision top-1 de 87,1 % sur ImageNet-1K en n’utilisant que les données d’ImageNet-1K. Nous exploitons également cette approche pour faciliter l’entraînement d’un modèle de 3 milliards de paramètres (SwinV2-G), atteignant l’état de l’art sur quatre benchmarks vision représentatifs, avec seulement 1/40e des données nécessaires dans les pratiques antérieures. Le code et les modèles seront rendus accessibles au public à l’adresse suivante : https://github.com/microsoft/SimMIM.