Extension de l’alignement vue globale-locale pour l’apprentissage auto-supervisé avec des images de télédétection

Étant donné le grand nombre d’images de télédétection de haute qualité facilement accessibles, l’exploitation de corpus d’images nécessitant une annotation manuelle réduite attire de plus en plus d’attention. Les modèles auto-supervisés acquièrent des représentations fonctionnelles générales en définissant une tâche prétexte qui génère des pseudo-étiquettes pour de grandes quantités de données non étiquetées, fournissant ainsi une supervision pour l’entraînement. Bien que des études antérieures aient exploré diverses techniques d’apprentissage auto-supervisé dans le domaine de la télédétection, les tâches prétexte fondées sur l’alignement entre vues locales et globales restent sous-exploitées, malgré leurs résultats exceptionnels sur les images naturelles. Inspirés par DINO, qui met en œuvre une structure efficace d’apprentissage de représentations basée sur la distillation de connaissances et l’alignement vue locale-globale, nous proposons deux tâches prétexte pour l’apprentissage auto-supervisé sur les images de télédétection (SSLRS). Grâce à ces tâches, nous étudions l’efficacité du contraste positif temporel ainsi que de vues de plusieurs tailles dans le cadre de SSLRS. Nous étendons DINO en proposant DINO-MC, qui utilise des vues locales à différentes tailles de découpage au lieu d’une seule taille fixe, afin de pallier la variation limitée de la taille des objets observée dans les images de télédétection. Nos expériences montrent que même pré-entraîné sur seulement 10 % du jeu de données, DINO-MC atteint des performances équivalentes ou supérieures à celles des méthodes SSLRS les plus avancées existantes sur plusieurs tâches de télédétection, tout en nécessitant moins de ressources computationnelles. Tous les codes, modèles et résultats sont disponibles à l’adresse suivante : https://github.com/WennyXY/DINO-MC.