HyperAIHyperAI
il y a 17 jours

Aggrégation par Transport Optimal pour la Reconnaissance de Lieu Visuel

Sergio Izquierdo, Javier Civera
Aggrégation par Transport Optimal pour la Reconnaissance de Lieu Visuel
Résumé

La tâche de reconnaissance de lieu visuel (Visual Place Recognition, VPR) consiste à associer une image de requête à des images de référence provenant d'une base de données étendue d'images prises à différents endroits, en ne s'appuyant que sur des indices visuels. Les pipelines les plus avancés se concentrent sur l'agrégation des caractéristiques extraites à partir d'un modèle profond (backbone) afin de former un descripteur global pour chaque image. Dans ce cadre, nous introduisons SALAD (Sinkhorn Algorithm for Locally Aggregated Descriptors), qui reformule l’affectation soft des caractéristiques locales vers des clusters, telle qu’implémentée dans NetVLAD, comme un problème de transport optimal. Dans SALAD, nous prenons en compte à la fois les relations entre caractéristiques et clusters, ainsi que celles entre clusters et caractéristiques, tout en introduisant un cluster « poubelle » (dustbin), conçu pour éliminer sélectivement les caractéristiques jugées non informatives, ce qui améliore la qualité globale du descripteur. Par ailleurs, nous exploitons et affinons DINOv2 comme modèle de backbone, offrant ainsi une puissance descriptive accrue pour les caractéristiques locales, tout en réduisant de manière significative le temps d'entraînement nécessaire. En conséquence, notre méthode à une seule étape surpasse non seulement les méthodes à une seule étape sur des jeux de données publics de VPR, mais également les méthodes à deux étapes qui intègrent un re-rangement (re-ranking) à coût beaucoup plus élevé. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/serizba/salad.