OpenStreetView-5M : Les nombreuses routes vers la géolocalisation visuelle mondiale

La détermination de l'emplacement d'une image n'importe où sur Terre est une tâche visuelle complexe, ce qui la rend particulièrement pertinente pour évaluer les algorithmes de vision par ordinateur. Cependant, l'absence de jeux de données standard, à grande échelle et librement accessibles contenant des images localisables avec fiabilité a limité son potentiel. Pour remédier à ce problème, nous présentons OpenStreetView-5M, un jeu de données à grande échelle et librement accessible composé de plus de 5,1 millions d'images de rue géoréférencées, couvrant 225 pays et territoires. Contrairement aux benchmarks existants, nous imposons une séparation stricte entre les ensembles d'entraînement et de test, ce qui nous permet d'évaluer la pertinence des caractéristiques géographiques apprises au-delà d'une simple mémorisation. Pour démontrer l'utilité de notre jeu de données, nous réalisons une vaste évaluation de divers encodeurs d'images de pointe, représentations spatiales et stratégies d'entraînement. Tous les codes et modèles associés sont disponibles à l'adresse suivante : https://github.com/gastruc/osv5m.