HyperAIHyperAI
il y a 2 mois

Pair-VPR : Pré-entraînement et classification contrastive de paires pour la reconnaissance visuelle des lieux avec des transformers visuels

Stephen Hausler; Peyman Moghadam
Pair-VPR : Pré-entraînement et classification contrastive de paires pour la reconnaissance visuelle des lieux avec des transformers visuels
Résumé

Dans cette étude, nous proposons une nouvelle méthode d'entraînement conjoint pour la Reconnaissance Visuelle de Lieux (VPR), qui apprend simultanément un descripteur global et un classifieur de paires pour le ré-ordonnancement. Le classifieur de paires peut prédire si une paire d'images donnée provient du même lieu ou non. Le réseau ne comprend que des composants de Vision Transformer, tant pour l'encodeur que pour le classifieur de paires, et les deux composants sont entraînés en utilisant leurs jetons de classe respectifs. Dans les méthodes VPR existantes, le réseau est généralement initialisé à l'aide de poids pré-entraînés provenant d'un ensemble d'images génériques tel qu'ImageNet. Nous proposons dans ce travail une stratégie alternative d'entraînement préalable, en utilisant la Modélisation d'Images Masquées Siamese comme tâche d'entraînement préalable. Nous proposons également une procédure de sélection d'images sensible aux lieux à partir d'une collection de grands ensembles de données VPR pour l'entraînement préalable de notre modèle, afin d'apprendre des caractéristiques visuelles spécifiquement adaptées à la VPR. En réutilisant les poids de l'encodeur et du décodeur de la Modélisation d'Images Masquées lors de la deuxième phase d'entraînement, Pair-VPR peut atteindre des performances VPR parmi les meilleures sur cinq ensembles de données de référence avec un encodeur ViT-B, ainsi que des améliorations supplémentaires du rappel en localisation avec des encodeurs plus volumineux. Le site web Pair-VPR est : https://csiro-robotics.github.io/Pair-VPR.