HyperAIHyperAI
vor 17 Tagen

Dateneffiziente große Skalen Platzerkennung mit gestufter Ähnlichkeitssupervision

Maria Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov
Dateneffiziente große Skalen Platzerkennung mit gestufter Ähnlichkeitssupervision
Abstract

Visual Place Recognition (VPR) ist eine zentrale Aufgabe der Computer Vision zur visuellen Lokalisierung. Bestehende Methoden werden mit Bildpaaren trainiert, die entweder denselben Ort darstellen oder nicht. Eine solche binäre Bewertung berücksichtigt jedoch nicht die kontinuierlichen Ähnlichkeitsbeziehungen zwischen Bildern desselben Orts, die durch die kontinuierliche Natur der Kamerapose bedingt sind. Die binäre Ähnlichkeit führt zu einer verrauschten Supervisionsinformation während des Trainings von VPR-Methoden, wodurch diese in lokale Minima stagnieren und teure Hard-Mining-Algorithmen erfordern, um eine Konvergenz zu gewährleisten. Ausgehend von der Erkenntnis, dass zwei Bilder desselben Orts aufgrund von Kamerapose-Unterschieden nur teilweise visuelle Hinweise gemeinsam haben, führen wir eine automatisierte Re-Annotierungstrategie zur Neubeschriftung von VPR-Datensätzen ein. Wir berechnen für Bildpaare gestufte Ähnlichkeitslabels basierend auf verfügbaren Lokalisationsmetadaten. Darüber hinaus schlagen wir eine neue Generalisierte Kontrastive Verlustfunktion (Generalized Contrastive Loss, GCL) vor, die gestufte Ähnlichkeitslabels zur Schulung kontrastiver Netzwerke nutzt. Wir zeigen, dass die Verwendung dieser neuen Labels zusammen mit der GCL das Aufwenden von Hard-Pair-Mining überflüssig macht und es ermöglicht, Bildbeschreibungen zu trainieren, die bei der Nachbarschaftssuche im VPR eine bessere Leistung erzielen und Ergebnisse erzielen, die entweder überlegen oder mit Methoden vergleichbar sind, die teure Hard-Pair-Mining- und Nachkorrekturtechniken erfordern. Code und Modelle sind unter: https://github.com/marialeyvallina/generalized_contrastive_loss verfügbar.