vor 15 Tagen

RemoteCLIP: Ein Vision-Sprache-Grundmodell für die Fernerkundung

Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou

Abstract

Allgemeine Grundmodelle haben in letzter Zeit bedeutende Durchbrüche in der künstlichen Intelligenz ermöglicht. In der Fernerkundung wurden selbstüberwachtes Lernen (Self-Supervised Learning, SSL) und Masked Image Modeling (MIM) eingesetzt, um Grundmodelle zu entwickeln. Diese Modelle lernen jedoch primär niedrigstufige Merkmale und erfordern annotierte Daten für das Feintuning. Zudem sind sie aufgrund des Fehlens von Sprachverstehen für Retrieval- und Zero-Shot-Anwendungen nicht geeignet. Um diese Einschränkungen zu überwinden, stellen wir RemoteCLIP vor – das erste vision-sprachliche Grundmodell für die Fernerkundung, das darauf abzielt, robuste visuelle Merkmale mit reichhaltiger Semantik sowie ausgerichtete Text-Embeddings zu lernen, um nahtlose Anwendungen in nachgeschalteten Aufgaben zu ermöglichen. Um die Knappheit an Vortrainingsdaten zu kompensieren, nutzen wir Daten-Skalierung, die heterogene Annotationen in ein einheitliches Bild-Text-Datenformat überführt, basierend auf der Box-to-Caption (B2C)- und Mask-to-Box (M2B)-Konvertierung. Durch die zusätzliche Einbeziehung von UAV-Bildern erzeugen wir ein Vortrainingsdatenset, das 12-mal größer ist als die Kombination aller verfügbaren Datensätze. RemoteCLIP ist für eine Vielzahl nachgeschalteter Aufgaben anwendbar, darunter Zero-Shot-Bildklassifikation, Linear Probing, k-NN-Klassifikation, Few-Shot-Klassifikation, Bild-Text-Retrieval sowie Objektzählung in Fernerkundungsbildern. Die Evaluation an 16 Datensätzen, einschließlich eines neu vorgestellten RemoteCount-Benchmarks zur Testung der Objektzähl-Fähigkeit, zeigt, dass RemoteCLIP bei verschiedenen Modellgrößen konsistent die Baseline-Grundmodelle übertrifft. Erstaunlicherweise erreicht RemoteCLIP auf dem RSITMD-Datensatz eine um 9,14 % höhere mittlere Recall-Rate als der aktuell beste Ansatz und auf dem RSICD-Datensatz eine um 8,92 % höhere Rate. Bei der Zero-Shot-Klassifikation übertrifft unser RemoteCLIP die CLIP-Benchmark um bis zu 6,39 % durchschnittliche Genauigkeit auf 12 nachgeschalteten Datensätzen. Projekt-Website: https://github.com/ChenDelong1999/RemoteCLIP