Un modèle hiérarchique dual d'utilité spécifique à l'environnement et au lieu pour la reconnaissance visuelle de lieu

Les approches de reconnaissance de lieu visuel (VPR) ont traditionnellement cherché à identifier des lieux en repérant des indices visuels, des régions d’image ou des repères possédant une « utilité » élevée pour la localisation précise d’un endroit spécifique. Toutefois, ce concept d’utilité n’est pas unique : il peut revêtir diverses formes. Dans cet article, nous proposons une nouvelle méthode pour estimer deux types clés d’utilité en VPR : l’utilité des indices visuels propres à un environnement donné, et celle des indices propres à un lieu particulier. Nous exploitons des principes d’apprentissage contrastif afin d’estimer de manière non supervisée l’utilité spécifique à l’environnement et l’utilité spécifique au lieu des clusters du Vector of Locally Aggregated Descriptors (VLAD), lesquels sont ensuite utilisés pour guider le processus de correspondance de caractéristiques locales via une sélection de points clés. En combinant ces deux mesures d’utilité, notre approche atteint des performances de pointe sur trois jeux de données de référence exigeants, tout en réduisant simultanément les besoins en stockage et en temps de calcul. Nous fournissons également une analyse approfondie démontrant que la sélection non supervisée des clusters conduit à des résultats sémantiquement pertinents, que la catégorisation plus fine est souvent plus utile pour la VPR que la catégorisation sémantique de haut niveau (par exemple : bâtiment, route), et nous caractérisons la variation de ces deux mesures d’utilité à travers différents lieux et environnements. Le code source est mis à disposition publiquement à l’adresse suivante : https://github.com/Nik-V9/HEAPUtil.