Ein hierarchisches doppeltes Modell zur umwelt- und ortsspezifischen Nutzenbewertung für die visuelle Ortsidentifikation

Ansätze zur visuellen Ortsidentifikation (Visual Place Recognition, VPR) haben typischerweise versucht, Orte durch die Identifizierung visueller Merkmale, Bildregionen oder Landmarken zu verknüpfen, die eine hohe „Nützlichkeit“ bei der Identifikation eines spezifischen Ortes aufweisen. Doch dieser Begriff der Nützlichkeit ist nicht eindeutig – vielmehr kann er eine Vielzahl von Formen annehmen. In diesem Paper präsentieren wir einen neuen Ansatz zur Ableitung zweier zentraler Nützlichkeitsarten für die VPR: die Nützlichkeit visueller Merkmale, die spezifisch für eine Umgebung sind, sowie die Nützlichkeit solcher Merkmale, die spezifisch für einen bestimmten Ort sind. Wir nutzen Prinzipien des kontrastiven Lernens, um sowohl die umgebungsspezifische als auch die ortsspezifische Nützlichkeit von VLAD-Clustern (Vector of Locally Aggregated Descriptors) auf unsupervisierter Basis zu schätzen, wodurch anschließend die lokale Merkmalserkennung durch gezielte Keypoint-Auswahl geleitet wird. Durch die Kombination dieser beiden Nützlichkeitsmaße erreicht unser Ansatz state-of-the-art-Leistung auf drei anspruchsvollen Benchmark-Datensätzen, gleichzeitig jedoch mit reduziertem Speicherbedarf und geringerem Rechenaufwand. Wir liefern zudem eine detaillierte Analyse, die zeigt, dass unsupervisierte Clusterauswahl semantisch sinnvolle Ergebnisse liefert, dass eine feinere Kategorisierung oft eine höhere Nützlichkeit für die VPR aufweist als eine grobe semantische Kategorisierung (z. B. Gebäude, Straße), und charakterisieren, wie sich diese beiden Nützlichkeitsmaße über verschiedene Orte und Umgebungen hinweg verändern. Der Quellcode ist öffentlich unter https://github.com/Nik-V9/HEAPUtil verfügbar.