HyperAIHyperAI
il y a 17 jours

MixVPR : Mixage de Fonctionnalités pour la Reconnaissance de Lieux Visuels

Amar Ali-bey, Brahim Chaib-draa, Philippe Giguère
MixVPR : Mixage de Fonctionnalités pour la Reconnaissance de Lieux Visuels
Résumé

La reconnaissance de lieu visuel (VPR) constitue une composante essentielle de la robotique mobile, de la conduite autonome ainsi que d'autres tâches de vision par ordinateur. Elle désigne le processus d'identification d'un lieu représenté dans une image de requête, à l'aide uniquement de techniques de vision par ordinateur. À grande échelle, les structures répétitives, ainsi que les variations météorologiques et d'éclairage posent un défi réel, car les apparences peuvent évoluer de manière drastique au fil du temps. En outre, une méthode efficace de VPR doit également être pratique dans des scénarios du monde réel où la latence est un facteur critique. Pour relever ce défi, nous introduisons MixVPR, une nouvelle technique holistique d'agrégation de caractéristiques qui traite les cartes de caractéristiques issues de modèles pré-entraînés comme un ensemble de caractéristiques globales. Elle intègre ensuite une relation globale entre les éléments de chaque carte de caractéristiques à travers une cascade de mélanges de caractéristiques, éliminant ainsi la nécessité d'une agrégation locale ou pyramidale, comme dans NetVLAD ou TransVPR. Nous démontrons l'efficacité de notre approche à travers des expérimentations étendues sur plusieurs benchmarks à grande échelle. Notre méthode surpasser toutes les techniques existantes avec une marge significative, tout en nécessitant moins de la moitié du nombre de paramètres par rapport à CosPlace et NetVLAD. Nous atteignons un nouveau record absolu en termes de rappel@1 : 94,6 % sur Pitts250k-test, 88,0 % sur MapillarySLS, et surtout 58,4 % sur Nordland. Enfin, notre méthode dépasse les techniques de recherche en deux étapes telles que Patch-NetVLAD, TransVPR et SuperGLUE, tout en étant plusieurs ordres de grandeur plus rapide. Le code source et les modèles entraînés sont disponibles à l'adresse suivante : https://github.com/amaralibey/MixVPR.