HyperAIHyperAI

Command Palette

Search for a command to run...

RemoteCLIP: Ein Vision-Sprache-Grundmodell für die Fernerkundung

Fan Liu Delong Chen Zhangqingyun Guan Xiaocong Zhou Jiale Zhu Qiaolin Ye Liyong Fu Jun Zhou

Zusammenfassung

Allgemeine Grundmodelle haben in letzter Zeit bedeutende Durchbrüche in der künstlichen Intelligenz ermöglicht. In der Fernerkundung wurden selbstüberwachtes Lernen (Self-Supervised Learning, SSL) und Masked Image Modeling (MIM) eingesetzt, um Grundmodelle zu entwickeln. Diese Modelle lernen jedoch primär niedrigstufige Merkmale und erfordern annotierte Daten für das Feintuning. Zudem sind sie aufgrund des Fehlens von Sprachverstehen für Retrieval- und Zero-Shot-Anwendungen nicht geeignet. Um diese Einschränkungen zu überwinden, stellen wir RemoteCLIP vor – das erste vision-sprachliche Grundmodell für die Fernerkundung, das darauf abzielt, robuste visuelle Merkmale mit reichhaltiger Semantik sowie ausgerichtete Text-Embeddings zu lernen, um nahtlose Anwendungen in nachgeschalteten Aufgaben zu ermöglichen. Um die Knappheit an Vortrainingsdaten zu kompensieren, nutzen wir Daten-Skalierung, die heterogene Annotationen in ein einheitliches Bild-Text-Datenformat überführt, basierend auf der Box-to-Caption (B2C)- und Mask-to-Box (M2B)-Konvertierung. Durch die zusätzliche Einbeziehung von UAV-Bildern erzeugen wir ein Vortrainingsdatenset, das 12-mal größer ist als die Kombination aller verfügbaren Datensätze. RemoteCLIP ist für eine Vielzahl nachgeschalteter Aufgaben anwendbar, darunter Zero-Shot-Bildklassifikation, Linear Probing, k-NN-Klassifikation, Few-Shot-Klassifikation, Bild-Text-Retrieval sowie Objektzählung in Fernerkundungsbildern. Die Evaluation an 16 Datensätzen, einschließlich eines neu vorgestellten RemoteCount-Benchmarks zur Testung der Objektzähl-Fähigkeit, zeigt, dass RemoteCLIP bei verschiedenen Modellgrößen konsistent die Baseline-Grundmodelle übertrifft. Erstaunlicherweise erreicht RemoteCLIP auf dem RSITMD-Datensatz eine um 9,14 % höhere mittlere Recall-Rate als der aktuell beste Ansatz und auf dem RSICD-Datensatz eine um 8,92 % höhere Rate. Bei der Zero-Shot-Klassifikation übertrifft unser RemoteCLIP die CLIP-Benchmark um bis zu 6,39 % durchschnittliche Genauigkeit auf 12 nachgeschalteten Datensätzen. Projekt-Website: https://github.com/ChenDelong1999/RemoteCLIP


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RemoteCLIP: Ein Vision-Sprache-Grundmodell für die Fernerkundung | Paper | HyperAI