HyperAIHyperAI
vor 2 Monaten

BoQ: Ein Ort ist einen Lernsack von Abfragen wert

Ali-Bey, Amar ; Chaib-draa, Brahim ; Giguère, Philippe
BoQ: Ein Ort ist einen Lernsack von Abfragen wert
Abstract

Bei der visuellen Ortserkennung stellt die genaue Identifizierung und Zuordnung von Bildern von Orten unter variierenden Umweltbedingungen und Perspektiven weiterhin eine erhebliche Herausforderung dar. In dieser Arbeit stellen wir eine neue Technik vor, die Bag-of-Queries (BoQ) genannt wird. BoQ lernt eine Menge globaler Abfragen, die darauf ausgelegt sind, universelle ortsspezifische Merkmale zu erfassen. Im Gegensatz zu bestehenden Methoden, die Selbst-Aufmerksamkeit (Self-Attention) verwenden und die Abfragen direkt aus den Eingabe-Features generieren, verwendet BoQ separate lernfähige globale Abfragen, die durch Kreuz-Aufmerksamkeit (Cross-Attention) die Eingabe-Features abtasten, um konsistente Informationsaggregation sicherzustellen. Zudem bietet unsere Technik einen interpretierbaren Aufmerksamkeitsmechanismus und kann sowohl mit CNNs als auch mit Vision Transformer Backbones integriert werden. Die Leistungsfähigkeit von BoQ wird durch umfangreiche Experimente auf 14 großen Benchmarks demonstriert. Sie übertrifft konsistent aktuelle Stand der Technik-Methoden wie NetVLAD, MixVPR und EigenPlaces. Darüber hinaus übertreffen BoQ als globale Retrieval-Technik (einstufig) zweistufige Retrieval-Methoden wie Patch-NetVLAD, TransVPR und R2Former bei gleichzeitig deutlich höherer Geschwindigkeit und Effizienz um mehrere Größenordnungen. Der Code und die Modellgewichte sind öffentlich verfügbar unter https://github.com/amaralibey/Bag-of-Queries.