HyperAIHyperAI
il y a 17 jours

EigenPlaces : Formation de modèles robustes aux points de vue pour la reconnaissance de lieux visuels

Gabriele Berton, Gabriele Trivigno, Barbara Caputo, Carlo Masone
EigenPlaces : Formation de modèles robustes aux points de vue pour la reconnaissance de lieux visuels
Résumé

La reconnaissance visuelle de lieu est une tâche visant à prédire l'emplacement d'une image (appelée requête) à partir uniquement de ses caractéristiques visuelles. Cette reconnaissance est généralement réalisée par recherche d'images, où la requête est associée aux images les plus similaires d'une grande base de données d'images géolocalisées, en utilisant des descripteurs globaux appris. Un défi majeur de cette tâche réside dans la capacité à reconnaître des lieux vus sous différents points de vue. Pour surmonter cette limitation, nous proposons une nouvelle méthode, appelée EigenPlaces, permettant d’entraîner notre réseau de neurones sur des images provenant de diverses perspectives, intégrant ainsi une robustesse aux changements de vue dans les descripteurs globaux appris. L'idée fondamentale consiste à regrouper les données d'entraînement en clusters afin de présenter explicitement au modèle différentes vues du même point d'intérêt. La sélection de ces points d'intérêt s'effectue sans nécessiter de supervision supplémentaire. Nous présentons ensuite des expériences sur l'ensemble le plus complet de jeux de données disponibles dans la littérature, montrant que EigenPlaces dépasse l’état de l’art précédent sur la majorité des jeux de données, tout en nécessitant 60 % moins de mémoire GPU pendant l’entraînement et en utilisant des descripteurs 50 % plus petits. Le code source et les modèles entraînés d’EigenPlaces sont disponibles à l’adresse {\small{\url{https://github.com/gmberton/EigenPlaces}}}, tandis que les résultats pour toute autre méthode de référence peuvent être obtenus à l’aide de la bibliothèque disponible à {\small{\url{https://github.com/gmberton/auto_VPR}}}.