Zu einer nahtlosen Anpassung vortrainierter Modelle für die visuelle Ortserkennung

Neuere Studien zeigen, dass Vision-Modelle, die auf allgemeinen visuellen Lernaufgaben mit großskaligen Datensätzen vortrainiert wurden, nützliche Merkmalsdarstellungen für eine Vielzahl visueller Wahrnehmungsaufgaben liefern können. Allerdings wurden bisher nur wenige Ansätze unternommen, um vortrainierte Grundmodelle in der visuellen Ortsidentifikation (Visual Place Recognition, VPR) zu nutzen. Aufgrund der inhärenten Unterschiede in den Trainingszielen und den Daten zwischen dem Vortrainingsprozess des Modells und der VPR-Aufgabe bleibt die Brücke zwischen diesen beiden Domänen noch ungeschlossen, und die volle Leistungsfähigkeit vortrainierter Modelle für die VPR ist weiterhin eine zentrale Herausforderung. Um dies zu adressieren, schlagen wir eine neuartige Methode vor, um eine nahtlose Anpassung vortrainierter Modelle für die VPR zu ermöglichen. Konkret entwerfen wir eine hybride Anpassungsmethode, um sowohl globale als auch lokale Merkmale effizient zu erzeugen, die sich auf auffällige Landmarken konzentrieren, um Orte präzise zu unterscheiden. Dabei werden lediglich leichte Adapter angepasst, ohne dass das vortrainierte Modell selbst verändert wird. Zusätzlich schlagen wir eine gegenseitige Nachbarn-Verlustfunktion für lokale Merkmale vor, um eine effektive Anpassung zu gewährleisten. Diese stellt sicher, dass dichte, geeignete lokale Merkmale erzeugt werden, die für die lokale Übereinstimmung geeignet sind, und vermeidet gleichzeitig zeitaufwendige räumliche Verifizierungen im Re-Ranking-Prozess. Experimentelle Ergebnisse zeigen, dass unsere Methode die derzeit besten Ansätze bei geringerem Trainingsdatenbedarf und kürzerer Trainingszeit übertrifft und lediglich etwa 3 % der Retrieval-Ausführungszeit im Vergleich zu zweistufigen VPR-Methoden mit RANSAC-basierter räumlicher Verifizierung benötigt. Unser Ansatz erreicht die Bestplatzierung auf dem MSLS-Challenge-Leaderboard (zum Zeitpunkt der Einreichung). Der Quellcode ist unter https://github.com/Lu-Feng/SelaVPR verfügbar.