TransGeo: Transformer ist alles, was Sie für die cross-view-Bild-Geolokalisierung benötigen

Die dominierenden auf CNN basierenden Methoden zur geo-lokalisierten Bildverarbeitung über verschiedene Blickwinkel hinweg beruhen auf der Polarkoordinatentransformation und sind nicht in der Lage, globale Korrelationen zu modellieren. Wir stellen einen rein auf Transformers basierenden Ansatz (TransGeo) vor, um diese Einschränkungen aus einer anderen Perspektive anzugehen. TransGeo nutzt die Stärken des Transformers hinsichtlich der Modellierung globaler Informationen und der expliziten Kodierung räumlicher Positionen voll aus. Darüber hinaus nutzen wir die Flexibilität der Transformer-Eingabe und schlagen eine auf Aufmerksamkeit gestützte, nicht-uniforme Ausschnittextraktion vor, wodurch informativlose Bildpatches entfernt werden können, ohne dass sich die Leistung signifikant verschlechtert, was die Rechenkosten deutlich reduziert. Die gewonnenen Rechenressourcen können dann gezielt zur Erhöhung der Auflösung ausschließlich für informative Patche verwendet werden, was zu einer Leistungssteigerung ohne zusätzlichen Rechenaufwand führt. Diese „aufmerksamkeitsgesteuerte Zoom-in-Strategie“ ähnelt stark dem Verhalten menschlicher Beobachter beim Betrachten von Bildern. Bemerkenswerterweise erzielt TransGeo state-of-the-art Ergebnisse sowohl auf städtischen als auch auf ländlichen Datensätzen, wobei der Rechenaufwand signifikant geringer ist als bei CNN-basierten Methoden. Der Ansatz verzichtet auf die Polarkoordinatentransformation und ist zudem schneller in der Inferenz als herkömmliche CNN-basierte Verfahren. Der Quellcode ist unter https://github.com/Jeff-Zilence/TransGeo2022 verfügbar.