Autoencodeurs masqués à bootstrap pour le préentraînement Vision BERT

Nous proposons les autoencodeurs masqués à bootstrap (BootMAE), une nouvelle approche pour le préentraînement du modèle Vision BERT. BootMAE améliore les autoencodeurs masqués originaux (MAE) grâce à deux innovations clés : 1) un encodeur à momentum qui fournit des caractéristiques en temps réel comme cibles supplémentaires pour la prédiction dans BERT ; 2) un décodeur sensible aux cibles, conçu pour réduire la pression subie par l’encodeur lors du stockage d’informations spécifiques à la cible pendant le préentraînement BERT. La première innovation s’inspire de l’observation selon laquelle l’utilisation d’un MAE préentraîné pour extraire des caractéristiques comme cible de prédiction BERT pour les tokens masqués permet d’obtenir de meilleures performances de préentraînement. Par conséquent, nous introduisons un encodeur à momentum parallèle à l’encodeur MAE original, qui améliore le préentraînement en utilisant ses propres représentations comme cibles de prédiction BERT. Dans la seconde approche, nous transmettons directement au décodeur des informations spécifiques à la cible (par exemple, les valeurs de pixels des patches non masqués) provenant de l’encodeur, afin de réduire la charge imposée à l’encodeur de mémoriser ces informations. Ainsi, l’encodeur peut se concentrer sur la modélisation sémantique, qui est l’objectif fondamental du préentraînement BERT, sans consacrer ses ressources à mémoriser les informations des tokens non masqués liées à la cible. À travers des expérimentations étendues, BootMAE atteint une précision Top-1 de $84,2\%$ sur ImageNet-1K avec un modèle de base ViT-B, surpassant MAE de $+0,8\%$ pour le même nombre d’époques de préentraînement. BootMAE obtient également une amélioration de $+1,0$ mIoU sur la segmentation sémantique sur ADE20K, ainsi que des gains de $+1,3$ box AP et $+1,4$ mask AP pour la détection et la segmentation d’objets sur le jeu de données COCO. Le code source est disponible à l’adresse suivante : https://github.com/LightDXY/BootMAE.