HyperAIHyperAI
il y a 2 mois

Révisiter tout : Reconnaissance visuelle de lieux par récupération de segments d'image

Kartik Garg; Sai Shubodh Puligilla; Shishir Kolathaya; Madhava Krishna; Sourav Garg
Révisiter tout : Reconnaissance visuelle de lieux par récupération de segments d'image
Résumé

La reconnaissance précise d'un lieu revisité est cruciale pour les agents incarnés afin de se localiser et de naviguer. Cela nécessite que les représentations visuelles soient distinctes, malgré de fortes variations dans le point de vue de la caméra et l'apparence de la scène. Les pipelines actuels de reconnaissance des lieux visuels codent l'« ensemble » de l'image et recherchent des correspondances. Cela pose un défi fondamental lors du rapprochement de deux images du même lieu prises sous différents angles de vue : « la similarité des éléments superposés peut être dominée par la dissimilarité des éléments non superposés ». Nous abordons ce problème en codant et en recherchant des « segments d'images » plutôt que des images entières. Nous proposons d'utiliser une segmentation d'images à ensemble ouvert pour décomposer une image en entités « significatives » (c'est-à-dire, objets et matières). Cela nous permet de créer une nouvelle représentation d'image sous forme d'une collection de sous-graphes multiples et chevauchants connectant un segment à ses segments voisins, appelée SuperSegment. De plus, pour encoder efficacement ces SuperSegments en représentations vectorielles compactes, nous proposons une nouvelle représentation factorisée d'agrégation de caractéristiques. Nous montrons que la récupération de ces représentations partielles conduit à un rappel significativement plus élevé en reconnaissance que la méthode classique basée sur l'image entière. Notre approche basée sur les segments, baptisée SegVLAD, établit un nouveau standard dans la reconnaissance des lieux sur une sélection diversifiée de jeux de données de référence, tout en étant applicable aux encodeurs d'images génériques et spécialisés par tâche. Enfin, nous démontrons le potentiel de notre méthode pour « revisiter n'importe quoi » en évaluant notre méthode sur une tâche de récupération d'instances d'objets, qui relie deux domaines de recherche distincts : la reconnaissance visuelle des lieux et la navigation guidée par un objectif objet, grâce à leur objectif commun consistant à reconnaître des objets spécifiques à un lieu. Code source : https://github.com/AnyLoc/Revisit-Anything.