Apprentissage non supervisé conscient de la géographie

Les méthodes d'apprentissage contrastif ont considérablement réduit l'écart entre l'apprentissage supervisé et non supervisé sur les tâches de vision par ordinateur. Dans ce papier, nous explorons leur application à des jeux de données géolocalisées, telles que les données de télédétection, où les données non étiquetées sont souvent abondantes tandis que les données étiquetées sont rares. Nous montrons tout d'abord qu'en raison de leurs caractéristiques différentes, un écart non trivial persiste entre l'apprentissage contrastif et l'apprentissage supervisé sur des benchmarks standards. Pour combler cet écart, nous proposons de nouvelles méthodes d'entraînement qui exploitent la structure spatio-temporelle des données de télédétection. Nous utilisons des images alignées spatialement au fil du temps pour construire des paires positives temporelles dans l'apprentissage contrastif, et la géolocalisation pour concevoir des tâches prétextes. Nos expériences montrent que la méthode proposée permet de réduire l'écart entre l'apprentissage contrastif et l'apprentissage supervisé pour la classification d'images, la détection d'objets et la segmentation sémantique dans le domaine de la télédétection. En outre, nous démontrons que la méthode proposée peut également être appliquée aux images de ImageNet géolocalisées, améliorant ainsi les performances sur diverses tâches en aval. La page web du projet est disponible à l'adresse suivante : geography-aware-ssl.github.io.