Neubewertung der visuellen Geo-Lokalisierung für großskalige Anwendungen

Visual Geo-localization (VG) ist die Aufgabe, die Position zu schätzen, an der ein gegebenes Foto aufgenommen wurde, indem es mit einer großen Datenbank von Bildern bekannter Orte verglichen wird. Um zu untersuchen, wie bestehende Techniken in einer realen, städteweiten Anwendung der visuellen Geo-Localisierung abschneiden würden, haben wir das neue Datenset San Francisco eXtra Large erstellt, das eine gesamte Stadt abdeckt und eine Vielzahl herausfordernder Szenarien bietet. Es ist 30-mal größer als das bisher größte Datenset für die visuelle Geo-Localisierung. Wir stellen fest, dass aktuelle Methoden nicht skalierbar sind, wenn sie auf solch große Datensätze angewendet werden. Daher entwickeln wir eine neue, hochskalierbare Trainingsmethode namens CosPlace, die das Training als Klassifikationsproblem formuliert und so die rechenintensiven Sampling-Prozesse vermeidet, die bei der üblicherweise verwendeten kontrastiven Lernmethode erforderlich sind. CosPlace erreicht einen Stand der Technik (SOTA)-Leistung auf einer Vielzahl von Datensätzen und zeigt Robustheit gegenüber starken Domänenverschiebungen. Darüber hinaus zeigen wir, dass CosPlace im Vergleich zur vorherigen SOTA-Methode bei der Trainingsphase etwa 80 % weniger GPU-Speicher benötigt und mit 8-mal kleineren Deskriptoren bessere Ergebnisse erzielt – ein entscheidender Fortschritt für die praktische, städteweite Anwendung der visuellen Geo-Localisierung. Das Datenset, der Quellcode und die trainierten Modelle sind für Forschungszwecke unter https://github.com/gmberton/CosPlace verfügbar.