HyperAIHyperAI
vor 17 Tagen

Optimal Transport Aggregation für die visuelle Ortserkennung

Sergio Izquierdo, Javier Civera
Optimal Transport Aggregation für die visuelle Ortserkennung
Abstract

Die Aufgabe der visuellen Ortsidentifikation (Visual Place Recognition, VPR) besteht darin, ein Abfragebild mit Referenzbildern aus einer umfangreichen Datenbank von Bildern aus verschiedenen Orten zu vergleichen, wobei ausschließlich visuelle Merkmale herangezogen werden. Moderne Ansätze konzentrieren sich auf die Aggregation von Merkmalen, die aus einem tiefen Grundmodell extrahiert wurden, um für jedes Bild einen globalen Descriptor zu generieren. In diesem Kontext stellen wir SALAD (Sinkhorn Algorithm for Locally Aggregated Descriptors) vor, das die soft-Assignment lokaler Merkmale auf Cluster in NetVLAD als ein Optimal-Transport-Problem neu formuliert. In SALAD berücksichtigen wir sowohl Beziehungen von Merkmalen zu Clustern als auch umgekehrt, und führen zudem einen „Dustbin“-Cluster ein, der gezielt nicht-informative Merkmale ablehnt und somit die Gesamtqualität des Descriptors verbessert. Zudem nutzen und feinjustieren wir DINOv2 als Grundmodell, das die Beschreibungsleistung der lokalen Merkmale erheblich steigert und die erforderliche Trainingszeit drastisch reduziert. Als Ergebnis übertrifft unsere einstufige Methode nicht nur etablierte einstufige Baselines auf öffentlichen VPR-Datensätzen, sondern erreicht auch eine bessere Leistung als zweistufige Methoden, die eine Nachkorrektur (re-ranking) hinzufügen, jedoch mit erheblich höherem Kostenaufwand verbunden sind. Der Quellcode und die Modelle sind unter https://github.com/serizba/salad verfügbar.