GeoCLIP: Clip-inspirierte Ausrichtung von Orten und Bildern für effektive Geo-Lokalisierung weltweit

Weltweite Geo-Lokalisierung strebt danach, den genauen Standort von Bildern, die überall auf der Welt aufgenommen wurden, zu ermitteln. Diese Aufgabe ist durch die enorme Vielfalt geografischer Landschaften mit erheblichen Herausforderungen verbunden. Ansätze basierend auf Bild-zu-Bild-Retrieval scheitern dabei, das Problem global zu lösen, da es nicht machbar ist, eine große Galerie von Bildern zu erstellen, die die gesamte Welt abdeckt. Stattdessen unterteilen existierende Methoden den Globus in diskrete geografische Zellen und transformieren das Problem in eine Klassifikationsaufgabe. Ihre Leistungsfähigkeit wird jedoch durch die vordefinierten Klassen begrenzt und führt oft zu ungenauen Lokalisierungen, wenn sich der Standort eines Bildes stark von dessen Klassenmitte unterscheidet. Um diese Einschränkungen zu überwinden, schlagen wir GeoCLIP vor, einen neuen CLIP-inspirierten Ansatz zur Image-to-GPS-Retrieval, der eine Ausrichtung zwischen dem Bild und seinen entsprechenden GPS-Positionen erzwingt. Der Standortencoder von GeoCLIP modelliert die Erde als kontinuierliche Funktion durch die Verwendung positionaler Kodierung mittels zufälliger Fourier-Features und baut eine hierarchische Darstellung auf, die Informationen in unterschiedlicher Auflösung erfasst und somit ein semantisch reiches hochdimensionales Merkmalsvektor erstellt, das auch für Anwendungen jenseits der Geo-Lokalisierung geeignet ist. Nach unserem Wissen handelt es sich bei dieser Arbeit um die erste Studie, die GPS-Kodierung für Geo-Lokalisierung einsetzt. Wir demonstrieren die Effektivität unserer Methode durch umfangreiche Experimente und Abstraktionen auf Benchmark-Datensätzen. Mit nur 20 % der Trainingsdaten erreichen wir wettbewerbsfähige Ergebnisse, was ihre Effizienz auch bei eingeschränkten Datenmengen unterstreicht. Darüber hinaus zeigen wir qualitativ Geo-Lokalisierung mithilfe einer Textanfrage unter Verwendung des CLIP-Kerns unseres Bildencoders nach. Die Projektwebseite ist unter folgender URL verfügbar: https://vicentevivan.github.io/GeoCLIP