AmsterTime: Ein visuelles Platzerkennungs-Benchmark-Datensatz für starke Domänenverschiebung

Wir stellen AmsterTime vor: ein anspruchsvolles Datenset zur Benchmarking von visueller Ortsidentifikation (Visual Place Recognition, VPR) unter Bedingungen eines starken Domänenversatzes. AmsterTime bietet eine Sammlung von 2.500 sorgfältig kuratierten Bildern, die dieselbe Szene aus Amsterdam abbilden – jeweils aus einer Straßenansicht und historischen Archivbildern aus der Stadt. Die Bildpaare zeigen denselben Ort unter unterschiedlichen Kameras, Blickwinkeln und Erscheinungsbildern. Im Gegensatz zu bestehenden Benchmark-Datensätzen wurde AmsterTime direkt über eine GIS-Navigationsplattform (Mapillary) durch Crowdsourcing erfasst. Wir evaluieren verschiedene Baselines, einschließlich nicht-lernender, überwachter und selbstüberwachter Methoden, die auf unterschiedlichen relevanten Datensätzen vortrainiert wurden, sowohl für Verifizierungsaufgaben als auch für Retrieval-Aufgaben. Unsere Ergebnisse zeigen, dass das ResNet-101-Modell, das auf dem Landmarks-Datenset vortrainiert wurde, sowohl bei der Verifizierungsaufgabe (84 % Genauigkeit) als auch bei der Retrieval-Aufgabe (24 % Genauigkeit) die höchste Leistung erzielt. Zudem wurde eine Untergruppe von Amsterdam-Landmarken gesammelt, um die Merkmalsqualität in einer Klassifizierungsaufgabe zu evaluieren. Die Klassifikationslabels werden zudem genutzt, um mithilfe von Grad-CAM visuelle Erklärungen zu extrahieren, um die von tiefen Metrik-Lernmodellen gelernten ähnlichen visuellen Muster zu inspizieren.