HyperAIHyperAI
il y a 2 mois

GeoCLIP : Alignement inspiré de Clip entre les lieux et les images pour une géolocalisation mondiale efficace

Vicente Vivanco Cepeda; Gaurav Kumar Nayak; Mubarak Shah
GeoCLIP : Alignement inspiré de Clip entre les lieux et les images pour une géolocalisation mondiale efficace
Résumé

La géolocalisation mondiale vise à déterminer la position exacte des images prises n'importe où sur Terre. Cette tâche présente d'importants défis en raison de la grande variabilité des paysages géographiques. Les approches basées sur la recherche d'image par image échouent à résoudre ce problème à l'échelle mondiale, car il est impossible de constituer une galerie d'images couvrant l'ensemble du monde. Au lieu de cela, les approches existantes divisent le globe en cellules géographiques discrètes, transformant ainsi le problème en une tâche de classification. Cependant, leurs performances sont limitées par les classes préétablies et entraînent souvent des localisations inexactes lorsque l'emplacement d'une image s'écarte considérablement du centre de sa classe. Pour surmonter ces limitations, nous proposons GeoCLIP, une nouvelle approche de recherche Image-to-GPS inspirée de CLIP qui impose un alignement entre l'image et ses coordonnées GPS correspondantes. L'encodeur de localisation de GeoCLIP modélise la Terre comme une fonction continue en utilisant un codage positionnel par des caractéristiques de Fourier aléatoires et en construisant une représentation hiérarchique qui capture des informations à différentes résolutions, produisant ainsi une caractéristique multidimensionnelle sémantiquement riche pouvant être utilisée même au-delà de la géolocalisation. À notre connaissance, c'est le premier travail à utiliser un codage GPS pour la géolocalisation. Nous démontrons l'efficacité de notre méthode par des expériences et des analyses exhaustives sur des jeux de données de référence. Nous obtenons des performances compétitives avec seulement 20 % des données d'entraînement, soulignant son efficacité même dans des contextes à faibles volumes de données. De plus, nous illustrons qualitativement la géolocalisation à partir d'une requête textuelle en exploitant le squelette CLIP de notre encodeur d'image. La page web du projet est disponible à l'adresse suivante : https://vicentevivan.github.io/GeoCLIP

GeoCLIP : Alignement inspiré de Clip entre les lieux et les images pour une géolocalisation mondiale efficace | Articles de recherche récents | HyperAI