HyperAIHyperAI
vor 2 Monaten

Um die Welt in 80 Zeitschritten: Ein generativer Ansatz zur globalen visuellen Geolokalisierung

Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
Um die Welt in 80 Zeitschritten: Ein generativer Ansatz zur globalen visuellen Geolokalisierung
Abstract

Globale visuelle Geolokalisierung prognostiziert, wo ein Bild auf der Erde aufgenommen wurde. Da Bilder unterschiedlich präzise lokalisiert werden können, beinhaltet diese Aufgabe von Natur aus einen erheblichen Grad an Ambiguität. Bestehende Ansätze sind jedoch deterministisch und ignorieren diesen Aspekt. In dieser Arbeit streben wir an, die Lücke zwischen traditioneller Geolokalisierung und modernen generativen Methoden zu schließen. Wir schlagen den ersten generativen Geolokalisierungsansatz vor, der auf Diffusion und riemannschem Flussabgleich basiert, wobei der Entrauschkungsprozess direkt auf der Oberfläche der Erde stattfindet. Unser Modell erreicht den Stand der Technik in drei Benchmarks für visuelle Geolokalisierung: OpenStreetView-5M, YFCC-100M und iNat21. Zudem führen wir die Aufgabe der probabilistischen visuellen Geolokalisierung ein, bei der das Modell eine Wahrscheinlichkeitsverteilung über alle möglichen Orte anstelle eines einzelnen Punktes vorhersagt. Wir stellen neue Metriken und Baselines für diese Aufgabe vor und zeigen die Vorteile unseres diffusionsbasierten Ansatzes auf. Die Codes und Modelle werden zur Verfügung gestellt.

Um die Welt in 80 Zeitschritten: Ein generativer Ansatz zur globalen visuellen Geolokalisierung | Neueste Forschungsarbeiten | HyperAI