HyperAIHyperAI
vor 17 Tagen

ProGEO: Generierung von Prompts durch bildtextbasierte kontrastive Lernverfahren für visuelle Geo-Lokalisierung

Chen Mao, Jingqi Hu
ProGEO: Generierung von Prompts durch bildtextbasierte kontrastive Lernverfahren für visuelle Geo-Lokalisierung
Abstract

Visual Geo-localization (VG) bezeichnet den Prozess der Identifizierung der in Abfragenbildern beschriebenen geografischen Lage, der weit verbreitet in der Robotik und in Aufgaben des Computer-Vision eingesetzt wird, beispielsweise im Bereich autonomer Fahrzeuge, Metaverse, Augmented Reality sowie SLAM. Bei fein granularen Bildern, die keine spezifischen Textbeschreibungen enthalten, führt die direkte Anwendung rein visueller Methoden zur Darstellung von Nachbarschaftsmerkmalen häufig dazu, dass das Modell übermäßig fein granulare Merkmale erfasst und somit das semantische Informationspotential der Bilder nicht vollständig ausschöpft. Um dies zu überwinden, schlagen wir ein zweistufiges Trainingsverfahren vor, um die visuelle Leistungsfähigkeit zu verbessern, und nutzen Kontrastlernverfahren, um anspruchsvolle Beispiele zu identifizieren und zu nutzen. Zunächst nutzen wir die multimodale Beschreibungsfähigkeit von CLIP (Contrastive Language-Image Pretraining), um für jedes geografische Bildmerkmal eine Menge lernbarer Text-Prompts zu erstellen, die vage Beschreibungen liefern. Anschließend unterstützen wir das Training des Bild-Encoders durch dynamische Text-Prompts, wodurch der Encoder in der Lage ist, bessere und generalisierbare visuelle Merkmale zu erlernen. Diese Strategie, Textinformationen in rein visuelle Aufgaben einzubinden, adressiert die Herausforderung der Nutzung multimodaler Modelle für geografische Bilder, die oft an fehlenden präzisen Beschreibungen leiden und daher schwer allgemein verwendbar sind. Wir validieren die Wirksamkeit des vorgeschlagenen Ansatzes an mehreren großen multimodalen Datensätzen für Visual Geo-localization und erzielen wettbewerbsfähige Ergebnisse auf mehreren Benchmarks. Der Quellcode und das Modell sind unter https://github.com/Chain-Mao/ProGEO verfügbar.