CV-Cities: Fortschritte bei der Cross-View Geo-Lokalisierung in globalen Städten

Die räumliche Geo-Lokalisierung über verschiedene Ansichten (Cross-View Geo-Localization, CVGL), die das Zuordnen und Abrufen von Satellitenbildern zur Bestimmung der geografischen Position eines Bodenbildes umfasst, ist in Szenarien mit eingeschränktem GNSS (Global Navigation Satellite System) von entscheidender Bedeutung. Allerdings stellt diese Aufgabe erhebliche Herausforderungen dar, aufgrund erheblicher Unterschiede in den Betrachtungswinkeln, der Komplexität der Lokalisierungsszenarien und des Bedarfs an einer globalen Lokalisierung. Um diesen Problemen entgegenzukommen, schlagen wir ein neues CVGL-Framework vor, das das visuelle Grundmodell DINOv2 mit einem fortschrittlichen Feature-Mixer integriert. Unser Framework führt den symmetrischen InfoNCE-Verlust ein und kombiniert Strategien des nahegelegenen Nachbarsamplings und dynamischen Ähnlichkeitsamplings, was die Lokalisationsgenauigkeit erheblich verbessert. Experimentelle Ergebnisse zeigen, dass unser Framework bestehende Methoden in mehreren öffentlichen und selbst erstellten Datensätzen übertrifft. Um die globale Leistung weiter zu verbessern, haben wir CV-Cities entwickelt, einen neuen Datensatz für globale CVGL. CV-Cities enthält 223.736 Boden-Satelliten-Bildpaare mit Geodaten, die sechzehn Städte auf sechs Kontinenten abdeckt und eine breite Palette komplexer Szenarien umfasst. Dies bietet eine anspruchsvolle Referenz für CVGL. Das mit CV-Cities trainierte Framework zeigt hohe Lokalisationsgenauigkeit in verschiedenen Teststädten und unterstreicht damit seine starken Globalisierungs- und Generalisierungsfähigkeiten. Unsere Datensätze und Codes sind unter https://github.com/GaoShuang98/CVCities verfügbar.