Réexamen de la géolocalisation visuelle pour les applications à grande échelle

La géolocalisation visuelle (VG) consiste à estimer la position où une photo donnée a été prise en la comparant à une base de données étendue d’images provenant de localisations connues. Afin d’étudier la performance des techniques existantes dans le cadre d’une application réelle de géolocalisation visuelle à l’échelle d’une ville entière, nous avons construit un nouveau jeu de données, San Francisco eXtra Large, couvrant l’intégralité d’une ville et offrant une grande variété de cas difficiles, dont la taille est 30 fois supérieure à celle du plus grand jeu de données précédent dédié à la géolocalisation visuelle. Nous constatons que les méthodes actuelles échouent à s’échelonner à de tels volumes de données. Par conséquent, nous proposons une nouvelle méthode d’entraînement hautement évolutive, appelée CosPlace, qui reformule l’apprentissage comme un problème de classification, évitant ainsi l’extraction coûteuse nécessaire aux méthodes de learning contrastif couramment utilisées. Nous obtenons des performances de pointe sur une large gamme de jeux de données et montrons que CosPlace est robuste face à de fortes variations de domaine. En outre, nous démontrons que, par rapport à l’état de l’art précédent, CosPlace nécessite environ 80 % moins de mémoire GPU pendant l’entraînement, tout en atteignant de meilleurs résultats avec des descripteurs 8 fois plus petits, ouvrant ainsi la voie à une géolocalisation visuelle réelle à l’échelle d’une ville. Le jeu de données, le code source et les modèles entraînés sont disponibles à l’adresse suivante pour des usages de recherche : https://github.com/gmberton/CosPlace.