EigenPlaces: Training viewpoint robust models for visual place recognition

Visual Place Recognition ist eine Aufgabe, die darauf abzielt, den Ort eines Bildes (sogenannter Query) ausschließlich anhand seiner visuellen Merkmale vorherzusagen. Dies geschieht üblicherweise durch Bildretrieval, bei dem die Query anhand gelernter globaler Beschreibungen mit den ähnlichsten Bildern aus einer großen Datenbank geotaggtener Fotos aus einer Datenbank abgeglichen wird. Eine zentrale Herausforderung bei dieser Aufgabe besteht darin, Orte aus unterschiedlichen Blickwinkeln erkennen zu können. Um diese Einschränkung zu überwinden, schlagen wir eine neue Methode namens EigenPlaces vor, die unser neuronales Netzwerk mit Bildern aus verschiedenen Blickwinkeln trainiert und somit Blickwinkelrobustheit in die gelernten globalen Beschreibungen integriert. Die zugrundeliegende Idee besteht darin, die Trainingsdaten zu clustern, um dem Modell explizit verschiedene Ansichten derselben Sehenswürdigkeiten vorzulegen. Die Auswahl dieser Sehenswürdigkeiten erfolgt ohne zusätzliche Überwachung. Wir präsentieren anschließend Experimente auf der umfassendsten Datensatz-Sammlung in der Literatur und zeigen, dass EigenPlaces auf der Mehrheit der Datensätze die bisherigen State-of-the-Art-Methoden übertrifft, dabei jedoch 60 % weniger GPU-Speicher für das Training benötigt und Beschreibungen mit 50 % geringerem Speicherbedarf verwendet. Der Quellcode und die trainierten Modelle für EigenPlaces sind unter {\small{\url{https://github.com/gmberton/EigenPlaces}}} verfügbar, während Ergebnisse mit beliebigen anderen Baselines mit dem Codebase unter {\small{\url{https://github.com/gmberton/auto_VPR}}} berechnet werden können.