HyperAIHyperAI
il y a 18 jours

GSV-Cities : Vers une reconnaissance de lieu visuel supervisée adaptée

Amar Ali-bey, Brahim Chaib-draa, Philippe Giguère
GSV-Cities : Vers une reconnaissance de lieu visuel supervisée adaptée
Résumé

Cette étude vise à explorer l'apprentissage de représentations pour la reconnaissance de lieux visuels à grande échelle, une tâche consistant à déterminer l'emplacement représenté dans une image de requête en se référant à une base de données d'images de référence. Ce problème est particulièrement difficile en raison des importantes variations environnementales pouvant survenir au fil du temps (par exemple, conditions météorologiques, éclairage, saisons, circulation, occultations). Les progrès actuels sont freinés par le manque de bases de données à grande échelle dotées d'une vérité terrain précise. Pour relever ce défi, nous introduisons GSV-Cities, un nouveau jeu de données d'images offrant la couverture géographique la plus étendue à ce jour, avec une vérité terrain hautement précise, couvrant plus de 40 villes réparties sur tous les continents sur une période de 14 ans. Nous exploitions ensuite tout le potentiel des avancées récentes en apprentissage métrique profond afin d'entraîner des réseaux spécifiquement conçus pour la reconnaissance de lieux, et évaluons l'influence de différentes fonctions de perte sur les performances. Par ailleurs, nous démontrons que les performances des méthodes existantes s'améliorent considérablement lorsqu'elles sont entraînées sur GSV-Cities. Enfin, nous proposons une nouvelle couche d'agrégation entièrement convolutive qui surpasser toutes les techniques existantes, y compris GeM, NetVLAD et CosPlace, et établissons un nouveau record sur des benchmarks à grande échelle tels que Pittsburgh, Mapillary-SLS, SPED et Nordland. Le jeu de données et le code sont disponibles à l'adresse suivante pour des usages de recherche : https://github.com/amaralibey/gsv-cities.