vor 2 Monaten

Wo wir sind und was wir betrachten: Abfragebasierte weltweite Bildgeolokalisierung unter Verwendung von Hierarchien und Szenen

Brandon Clark; Alec Kerrigan; Parth Parag Kulkarni; Vicente Vivanco Cepeda; Mubarak Shah

Abstract

Die genaue Bestimmung von Breiten- und Längengrad, an dem ein Foto aufgenommen wurde, ist eine nützliche und weit verbreitete Aufgabe, die trotz des beschleunigten Fortschritts in anderen Bereichen der Computer Vision außergewöhnlich schwierig bleibt. Die meisten bisherigen Ansätze haben sich dafür entschieden, eine einzelne Darstellung von Abfragebildern zu lernen, die dann auf verschiedenen geografischen Ebenen klassifiziert werden. Diese Ansätze nutzen jedoch nicht die unterschiedlichen visuellen Hinweise aus, die Kontext für verschiedene Hierarchien wie Land, Bundesland und Stadt liefern. Zu diesem Zweck stellen wir eine end-to-end Transformer-basierte Architektur vor, die das Verhältnis zwischen den verschiedenen geografischen Ebenen (den wir als Hierarchien bezeichnen) und den entsprechenden visuellen Szeneninformationen in einem Bild durch hierarchische Kreuzaufmerksamkeit (cross-attention) nutzt. Dies erreichen wir, indem wir für jede geografische Hierarchie und jeden Szene-Typ eine Abfrage lernen. Zudem lernen wir getrennte Darstellungen für verschiedene Umgebungsszenen, da verschiedene Szenen am gleichen Ort oft durch völlig unterschiedliche visuelle Merkmale definiert sind. Wir erzielen den Stand der Technik in Bezug auf Straßenebenauswertung auf vier standardmäßigen Geo-Lokalisierung-Datensätzen: Im2GPS, Im2GPS3k, YFCC4k und YFCC26k. Zudem demonstrieren wir qualitativ, wie unsere Methode unterschiedliche Darstellungen für verschiedene visuelle Hierarchien und Szenen lernt – etwas, das bisherige Methoden nicht gezeigt haben. Diese früheren Testdatensätze bestehen größtenteils aus ikonischen Sehenswürdigkeiten oder Bildern aus sozialen Medien, was sie entweder zu einer Memorisaufgabe macht oder sie zu bestimmten Orten verfälscht. Um dieses Problem anzugehen, führen wir einen viel anspruchsvolleren Testdatensatz ein: Google-World-Streets-15k, der Bilder aus Google Street View umfasst und die gesamte Erde abdeckt. Wir präsentieren dabei Ergebnisse im Stand der Technik. Unser Code wird in der kamerafertigen Version zur Verfügung gestellt.