Autoencodeur de contexte pour l'apprentissage non supervisé de représentations

Nous présentons une nouvelle approche de modélisation d’image masquée (MIM), appelée autoencodeur contextuel (CAE), destinée au préentraînement de représentations auto-supervisées. Nous préentraînons un encodeur en lui faisant effectuer des prédictions dans l’espace des représentations encodées. Les tâches de préentraînement comprennent deux composantes : la prédiction de représentations masquées — prévoir les représentations des patches masqués — et la reconstruction de patches masqués — reconstruire les patches masqués. L’architecture du réseau repose sur une structure encodeur-régresseur-décodeur : l’encodeur prend en entrée les patches visibles ; le régresseur prédit les représentations des patches masqués, en s’appuyant sur les représentations des patches visibles ainsi que sur les positions des patches visibles et masqués, afin que ces prédictions soient alignées avec les représentations calculées par l’encodeur ; le décodeur reconstruit ensuite les patches masqués à partir des représentations encodées prédites. La conception du CAE favorise la séparation entre l’apprentissage de l’encodeur (représentation) et la réalisation des tâches associées — à savoir la prédiction de représentations masquées et la reconstruction de patches masqués — et l’expérience montre empiriquement que prévoir dans l’espace des représentations encodées apporte un avantage significatif à l’apprentissage des représentations. Nous démontrons l’efficacité de notre CAE par des performances supérieures sur des tâches en aval : segmentation sémantique, détection d’objets, segmentation d’instances et classification. Le code sera disponible à l’adresse suivante : https://github.com/Atten4Vis/CAE.