ProGEO : Génération de prompts par apprentissage contrastif image-texte pour la géolocalisation visuelle

La géolocalisation visuelle (VG) désigne le processus permettant d'identifier l'emplacement décrit dans des images interrogées, et est largement utilisée dans les domaines de la robotique et des tâches de vision par ordinateur, tels que la conduite autonome, le métavers, la réalité augmentée et la SLAM. Dans le cas d'images à fort niveau de détail privées de descriptions textuelles précises, l'application directe de méthodes purement visuelles pour représenter les caractéristiques du voisinage conduit souvent le modèle à se concentrer sur des détails excessivement fins, empêchant ainsi une exploitation complète de l'information sémantique contenue dans les images. Ainsi, nous proposons une méthode d'entraînement en deux étapes afin d'améliorer les performances visuelles, combinée à une approche d'apprentissage contrastif pour extraire des échantillons difficiles. Premièrement, nous exploitons la capacité multimodale de CLIP (Contrastive Language-Image Pretraining) afin de générer un ensemble de prompts textuels apprenables pour chaque caractéristique d'image géographique, formant ainsi des descriptions floues. Ensuite, en utilisant des prompts textuels dynamiques pour aider à l'entraînement de l'encodeur d'images, nous permettons à cet encodeur d'apprendre des caractéristiques visuelles plus performantes et plus généralisables. Cette stratégie consistant à intégrer des éléments textuels dans des tâches purement visuelles répond au défi posé par l'utilisation de modèles multimodaux pour les images géographiques, qui souffrent souvent d'un manque de descriptions précises, rendant leur utilisation répandue difficile. Nous validons l'efficacité de la stratégie proposée sur plusieurs jeux de données à grande échelle de géolocalisation visuelle, et notre méthode obtient des résultats compétitifs sur plusieurs benchmarks de géolocalisation visuelle. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/Chain-Mao/ProGEO.