HyperAIHyperAI
il y a 2 mois

BoQ : Un Lieu Vaut un Sac de Requêtes Apprenables

Ali-Bey, Amar ; Chaib-draa, Brahim ; Giguère, Philippe
BoQ : Un Lieu Vaut un Sac de Requêtes Apprenables
Résumé

Dans le domaine de la reconnaissance visuelle des lieux, l'identification et le couplage précis d'images de lieux sous différentes conditions environnementales et angles de vue restent un défi important. Dans cet article, nous présentons une nouvelle technique appelée Bag-of-Queries (BoQ), qui apprend un ensemble de requêtes globales conçues pour capturer des attributs spécifiques universels aux lieux. Contrairement aux méthodes existantes qui utilisent l'auto-attention et génèrent les requêtes directement à partir des caractéristiques d'entrée, BoQ utilise des requêtes globales distinctes et apprises, qui sondent les caractéristiques d'entrée par le biais de l'attention croisée, garantissant ainsi une agrégation cohérente des informations. De plus, notre technique offre un mécanisme d'attention interprétable et s'intègre à la fois avec les troncs CNN et Vision Transformer. Les performances de BoQ sont démontrées par des expériences approfondies sur 14 benchmarks à grande échelle. Elle surpasse constamment les techniques actuelles de pointe, telles que NetVLAD, MixVPR et EigenPlaces. En outre, en tant que technique de recherche globale (en une seule étape), BoQ dépasse les méthodes de recherche en deux étapes comme Patch-NetVLAD, TransVPR et R2Former, tout en étant beaucoup plus rapide et efficace. Le code source et les poids du modèle sont disponibles publiquement sur https://github.com/amaralibey/Bag-of-Queries.