University-1652: Ein Mehrsicht-Mehrfachquelle-Benchmark für Geo-Lokalisierung mit Drohnen

Wir betrachten das Problem der räumlichen Lokalisierung über verschiedene Ansichten (cross-view geo-localization). Die Hauptausforderung dieser Aufgabe besteht darin, robuste Merkmale zu lernen, die großen Veränderungen der Sichtweise widerstehen können. Bestehende Benchmarks können dabei helfen, sind aber in Bezug auf die Anzahl der Sichtweisen begrenzt. Bildpaare, die zwei Sichtweisen enthalten, wie zum Beispiel Satelliten- und Bodenansichten, werden in der Regel bereitgestellt, was das Lernen von Merkmalen möglicherweise beeinträchtigen kann. Neben Handykameras und Satelliten argumentieren wir in diesem Papier, dass Drohnen als dritte Plattform zur Lösung des Problems der räumlichen Lokalisierung dienen könnten. Im Gegensatz zu traditionellen Bodenansichten stoßen Drohnenaufnahmen auf weniger Hindernisse, wie z.B. Bäume, und können beim Fliegen um den Zielort eine umfassendere Sicht bieten. Um die Effektivität der Drohnenplattform zu überprüfen, stellen wir einen neuen mehrfach-sichtbasierten Benchmark für drohnenbasierte räumliche Lokalisierung vor, den University-1652 genannt wird. University-1652 enthält Daten von drei Plattformen: synthetischen Drohnen, Satelliten und Bodenkameras von 1.652 Universitätsgebäuden weltweit. Nach unserem Wissen ist University-1652 das erste drohnenbasierte Dataset für räumliche Lokalisierung und ermöglicht zwei neue Aufgaben: die Lokalisierung des Zielorts durch Drohnenaufnahmen (drone-view target localization) und die Navigation von Drohnen (drone navigation). Wie der Name schon sagt, zielt die Lokalisierung des Zielorts durch Drohnenaufnahmen darauf ab, die Position des Zielorts anhand von Drohnenaufnahmen vorherzusagen. Andererseits soll bei gegebener Satellitenansichtsabfragebild (satellite-view query image) die Navigation der Drohne ins Interessengebiet der Abfrage führen. Wir verwenden dieses Dataset, um eine Vielzahl von vorgefertigten CNN-Merkmalen zu analysieren und einen starken CNN-Baseline auf diesem anspruchsvollen Dataset vorzuschlagen. Die Experimente zeigen, dass University-1652 dem Modell hilft, sichtweise-unabhängige Merkmale zu lernen und auch eine gute Generalisierungsfähigkeit in realen Szenarien besitzt.