HyperAIHyperAI
vor 17 Tagen

EffoVPR: Effektive Nutzung von Grundlagenmodellen für visuelle Ortserkennung

Issar Tzachor, Boaz Lerner, Matan Levy, Michael Green, Tal Berkovitz Shalev, Gavriel Habib, Dvir Samuel, Noam Korngut Zailer, Or Shimshi, Nir Darshan, Rami Ben-Ari
EffoVPR: Effektive Nutzung von Grundlagenmodellen für visuelle Ortserkennung
Abstract

Die Aufgabe der visuellen Ortsidentifikation (Visual Place Recognition, VPR) besteht darin, den Standort eines Abfragebildes aus einer Datenbank geotaggerter Bilder vorherzusagen. Kürzliche Studien zur VPR haben den erheblichen Vorteil hervorgehoben, vortrainierte Grundmodelle wie DINOv2 für die VPR-Aufgabe einzusetzen. Diese Modelle gelten jedoch oft als unzureichend für die VPR, wenn sie nicht zusätzlich an VPR-spezifischen Daten feinabgestimmt werden. In diesem Paper präsentieren wir einen effektiven Ansatz, um das Potenzial eines Grundmodells für die VPR auszuschöpfen. Wir zeigen, dass Merkmale, die aus Selbst-Attention-Schichten extrahiert werden, bereits in einer Zero-Shot-Situation als leistungsstarker Re-Ranker für die VPR fungieren können. Unser Verfahren übertrifft nicht nur frühere Zero-Shot-Ansätze, sondern erzielt zudem Ergebnisse, die mit mehreren überwachten Methoden konkurrieren. Anschließend zeigen wir, dass ein einstufiger Ansatz, der interne ViT-Schichten zur Pooling-Operation nutzt, globale Merkmale erzeugt, die eine state-of-the-art-Leistung erreichen und dabei eine beeindruckende Merkmalskomprimierung bis hin zu 128D ermöglichen. Darüber hinaus vergrößert die Integration unserer lokalen Grundmodellmerkmale für das Re-Ranking diesen Leistungsunterschied weiter. Unser Ansatz demonstriert zudem außergewöhnliche Robustheit und Generalisierbarkeit und erreicht neue state-of-the-art-Ergebnisse, auch unter anspruchsvollen Bedingungen wie Verdeckung, Tages- und Nachtwechsel sowie saisonalen Veränderungen.