PIGEON : Prédiction des géolocalisations d'images

La géolocalisation d'images à l'échelle planétaire reste un défi en raison de la diversité des images provenant de toutes les parties du monde. Bien que les approches basées sur les transformateurs visuels aient fait des progrès significatifs en termes de précision de géolocalisation, le succès dans la littérature antérieure est limité aux distributions étroites d'images de monuments, et les performances n'ont pas été généralisées aux lieux inconnus. Nous présentons un nouveau système de géolocalisation qui combine la création sémantique de géocellules, une préformation multitâche par contraste et une nouvelle fonction de perte. De plus, notre travail est le premier à effectuer des recherches sur des clusters de localisation pour affiner les estimations. Nous entraînons deux modèles pour évaluer leurs performances sur des données au niveau de la rue et pour la géolocalisation d'images à usage général ; le premier modèle, PIGEON, est formé sur des données issues du jeu Geoguessr et est capable de placer plus de 40 % de ses estimations à moins de 25 kilomètres du lieu cible à l'échelle mondiale. Nous développons également un bot et déployons PIGEON dans une expérience aveugle contre des humains, se classant parmi les 0,01 % meilleurs joueurs. Nous défions également l'un des meilleurs joueurs professionnels de Geoguessr au monde lors d'une série de six matchs suivis par des millions de spectateurs, remportant tous les six jeux. Notre deuxième modèle, PIGEOTTO, diffère en ce qu'il est formé sur un ensemble de données d'images provenant de Flickr et Wikipedia, obtenant des résultats d'avant-garde sur une large gamme de benchmarks de géolocalisation d'images, surpassant l'état actuel de l'art (SOTA) jusqu'à 7,7 points pourcentage au niveau ville et jusqu'à 38,8 points pourcentage au niveau pays. Nos résultats suggèrent que PIGEOTTO est le premier modèle de géolocalisation d'images qui généralise efficacement aux lieux inconnus et que notre approche peut ouvrir la voie à des systèmes hautement précis de géolocalisation d'images à l'échelle planétaire. Notre code est disponible sur GitHub.