HyperAIHyperAI
il y a 18 jours

Vers une adaptation fluide des modèles pré-entraînés pour la reconnaissance de lieux visuels

Feng Lu, Lijun Zhang, Xiangyuan Lan, Shuting Dong, Yaowei Wang, Chun Yuan
Vers une adaptation fluide des modèles pré-entraînés pour la reconnaissance de lieux visuels
Résumé

Des études récentes montrent que les modèles de vision pré-entraînés sur des tâches d'apprentissage visuel générique à grande échelle peuvent fournir des représentations fonctionnelles utiles pour une large gamme de problèmes de perception visuelle. Toutefois, très peu d'efforts ont été déployés pour exploiter les modèles fondamentaux pré-entraînés dans le cadre de la reconnaissance de lieu visuel (VPR). En raison des différences intrinsèques entre les objectifs d'entraînement et les jeux de données utilisés pour le pré-entraînement des modèles et pour la VPR, il reste un enjeu majeur de combler cet écart afin de tirer pleinement parti des capacités des modèles pré-entraînés dans la VPR. À cet effet, nous proposons une nouvelle méthode permettant une adaptation fluide des modèles pré-entraînés à la VPR. Plus précisément, afin d’obtenir à la fois des caractéristiques globales et locales mettant l’accent sur des repères saillants pour distinguer efficacement les lieux, nous concevons une méthode d’adaptation hybride permettant une adaptation efficace à la fois globale et locale, dans laquelle seules des « adaptateurs » légers sont ajustés, sans modifier le modèle pré-entraîné. Par ailleurs, afin de guider une adaptation efficace, nous proposons une perte basée sur les voisins mutuels pour les caractéristiques locales, qui garantit la production de caractéristiques locales denses appropriées pour le matching local, tout en évitant les vérifications spatiales coûteuses en temps lors du re-rangement. Les résultats expérimentaux montrent que notre méthode surpasser les états de l’art avec moins de données d’entraînement et de temps d’entraînement, tout en utilisant environ seulement 3 % du temps de récupération des méthodes VPR à deux étapes utilisant une vérification spatiale basée sur RANSAC. Elle occupe la première place au classement du défi MSLS (au moment de la soumission). Le code est disponible à l’adresse suivante : https://github.com/Lu-Feng/SelaVPR.