Revisiter IM2GPS à l'ère de l'apprentissage profond

La géolocalisation d'images, qui consiste à inférer la position géographique d'une image, est un problème complexe en vision par ordinateur avec de nombreuses applications potentielles. L'approche récente de pointe pour résoudre ce problème est une méthode de classification d'images profondes, dans laquelle le monde est divisé spatialement en cellules et un réseau profond est formé pour prédire la cellule correcte pour une image donnée. Nous proposons de combiner cette approche avec l'approche originale Im2GPS, où une image de requête est comparée à une base de données d'images géotaguées et où la localisation est déduite à partir de l'ensemble des images récupérées. Nous estimons la position géographique d'une image de requête en appliquant l'estimation de densité par noyau aux emplacements de ses plus proches voisins dans la base de données de référence. De manière intéressante, nous constatons que les meilleures caractéristiques pour notre tâche de recherche sont issues de réseaux formés avec une perte de classification, même si nous n'utilisons pas une approche de classification lors des tests. La formation avec une perte de classification surpasse plusieurs méthodes d'apprentissage profond des caractéristiques (par exemple, les réseaux Siamese avec une perte contrastive ou triplet) plus couramment utilisées pour les applications de recherche. Notre approche simple atteint une précision de géolocalisation sans égale tout en nécessitant significativement moins de données d'entraînement.