EffoVPR : Utilisation efficace des modèles fondamentaux pour la reconnaissance de lieux visuels

La tâche de reconnaissance de lieu visuel (VPR) consiste à prédire la localisation d'une image de requête à partir d'une base de données d'images géoréférencées. Les études récentes en VPR ont mis en évidence l'avantage significatif de l'utilisation de modèles fondamentaux pré-entraînés, tels que DINOv2, pour cette tâche. Toutefois, ces modèles sont souvent considérés comme insuffisants pour le VPR sans une phase de fine-tuning sur des données spécifiques à la VPR. Dans cet article, nous proposons une approche efficace pour exploiter pleinement le potentiel d’un modèle fondamental en VPR. Nous démontrons que les caractéristiques extraites à partir des couches d’attention auto-attention peuvent servir de puissant ré-trieur (re-ranker) en VPR, même dans un cadre zero-shot. Notre méthode surpasse non seulement les approches zero-shot précédentes, mais atteint également des performances compétitives avec plusieurs méthodes supervisées. Nous montrons ensuite qu’une approche à une seule phase, utilisant les couches internes d’un ViT pour le pooling, permet d’obtenir des caractéristiques globales atteignant des performances de pointe, tout en offrant une compacité remarquable descripteurs réduits à 128 dimensions. En outre, l’intégration de nos caractéristiques locales fondamentales pour le ré-trieur amplifie encore davantage cet écart de performance. Notre méthode démontre également une robustesse et une généralisation exceptionnelles, établissant de nouveaux états de l’art, tout en gérant efficacement des conditions difficiles telles que les occlusions, les transitions jour/nuit et les variations saisonnières.