AnyLoc : Vers une reconnaissance universelle des lieux visuels

La reconnaissance de lieu visuelle (VPR) est essentielle pour la localisation des robots. À ce jour, les approches VPR les plus performantes sont spécifiques à un environnement ou à une tâche : bien qu’elles affichent de très bons résultats dans des environnements structurés (notamment dans les scénarios de conduite urbaine), leur performance se dégrade fortement dans des environnements non structurés, ce qui rend la plupart des méthodes fragiles pour un déploiement robuste dans le monde réel. Dans ce travail, nous proposons une solution universelle à la VPR — une technique fonctionnant efficacement dans une large gamme d’environnements structurés et non structurés (urbains, extérieurs, intérieurs, aériens, sous-marins et souterrains), sans nécessiter de réentraînement ni de fine-tuning. Nous démontrons que des représentations fonctionnelles généralistes, extraites à partir de modèles auto-supervisés commerciaux sans entraînement spécifique à la VPR, constituent le substrat idéal pour construire une telle solution universelle. En combinant ces représentations avec une agrégation non supervisée des caractéristiques, notre suite de méthodes, AnyLoc, atteint une performance jusqu’à 4 fois supérieure à celle des approches existantes. Nous obtenons en outre une amélioration de 6 % en caractérisant les propriétés sémantiques de ces représentations, permettant ainsi d’identifier des domaines uniques qui regroupent des jeux de données provenant d’environnements similaires. Nos expériences détaillées et analyses établissent une base solide pour le développement de solutions VPR pouvant être déployées n’importe où, à tout moment, et depuis n’importe quel point de vue. Nous encourageons les lecteurs à explorer notre page de projet et nos démonstrations interactives : https://anyloc.github.io/.