Autoencodeur auto-masqué guidé par les caractéristiques pour l'apprentissage auto-supervisé en télédétection

L'apprentissage auto-supervisé guidé par le modèle d’image masquée, tel que le Masked Autoencoder (MAE), a suscité un large intérêt pour le préentraînement des transformateurs visuels en télédétection. Toutefois, MAE a tendance à se concentrer excessivement sur les détails au niveau des pixels, ce qui limite la capacité du modèle à comprendre le sens sémantique, en particulier pour les images SAR bruitées. Dans cet article, nous explorons les caractéristiques spectrales et spatiales des images de télédétection comme cibles améliorées pour la reconstruction dans MAE. Nous menons d'abord une étude sur la reconstruction de diverses caractéristiques d’image, toutes se révélant comparables ou supérieures aux pixels bruts. À partir de ces observations, nous proposons le Feature Guided Masked Autoencoder (FG-MAE) : pour les images multispectrales, la reconstruction combine les Histogrammes de gradients orientés (HOG) et les Indices de différence normalisés (NDI), tandis que pour les images SAR, seule la reconstruction des HOG est utilisée. Les résultats expérimentaux sur trois tâches de post-traitement illustrent l’efficacité de FG-MAE, avec une amélioration notable pour les images SAR. En outre, nous démontrons la bonne capacité d’évolutivité de FG-MAE, et mettons à disposition une première série de transformateurs visuels préentraînés pour les images SAR et multispectrales à résolution moyenne.