Où nous sommes et ce que nous observons : Localisation géographique mondiale d'images basée sur des requêtes en utilisant des hiérarchies et des scènes

Déterminer la latitude et la longitude précises d'une photo est une tâche utile et largement applicable, mais elle reste particulièrement difficile malgré les progrès accélérés réalisés dans d'autres domaines de la vision par ordinateur. La plupart des approches précédentes ont opté pour l'apprentissage d'une seule représentation des images de requête, qui sont ensuite classées à différents niveaux de granularité géographique. Ces approches ne parviennent pas à exploiter les différentes indices visuels qui donnent du contexte aux différentes hiérarchies, telles que le niveau pays, état ou ville. À cette fin, nous présentons une architecture basée sur un transformer, de bout en bout, qui exploite la relation entre les différents niveaux géographiques (que nous appelons hiérarchies) et les informations scéniques visuelles correspondantes dans une image grâce à l'attention croisée hiérarchique. Nous y parvenons en apprenant une requête pour chaque hiérarchie géographique et type de scène. De plus, nous apprenons une représentation distincte pour différents environnements scéniques, car différentes scènes au même endroit sont souvent définies par des caractéristiques visuelles complètement différentes. Nous obtenons des résultats d'état de l'art en termes de précision au niveau de la rue sur 4 jeux de données standards de géolocalisation : Im2GPS, Im2GPS3k, YFCC4k et YFCC26k, ainsi que nous démontrons qualitativement comment notre méthode apprend différentes représentations pour différentes hiérarchies visuelles et scènes, ce qui n'avait pas été montré dans les méthodes précédentes. Ces jeux de données précédents sont principalement composés de monuments emblématiques ou d'images provenant des réseaux sociaux, ce qui en fait soit une tâche de mémorisation, soit biaisés vers certains lieux. Pour remédier à ce problème, nous introduisons un jeu de données beaucoup plus difficile pour les tests, Google-World-Streets-15k, composé d'images issues de Google Street View couvrant toute la planète et présentant des résultats d'état de l'art. Notre code sera rendu disponible dans la version finale du document.