HyperAIHyperAI

Command Palette

Search for a command to run...

RS5M und GeoRSCLIP: Ein großskaliges Vision-Language-Datensatz und ein großes Vision-Language-Modell für die Fernerkundung

Zilun Zhang Tiancheng Zhao Yulong Guo Jianwei Yin

Zusammenfassung

Vortrainierte Vision-Sprache-Modelle (VLMs), die umfangreiche Paare aus Bild- und Textdaten nutzen, haben beeindruckende Fähigkeiten in der Bild-Text-Assoziation demonstriert und hervorragende Ergebnisse bei verschiedenen nachgeschalteten Aufgaben erzielt. Eine zentrale Herausforderung besteht darin, bestehende großskalige, vortrainierte VLMs, die auf alltäglichen Objekten trainiert wurden, effektiv für eine domainspezifische Übertragung einzusetzen, um domainspezifische nachgeschaltete Aufgaben zu bewältigen. In diesem Paper stellen wir einen neuen Rahmen vor, der das Domain-vortrainierte Vision-Sprache-Modell (DVLM) beinhaltet und die Lücke zwischen dem allgemeinen Vision-Sprache-Modell (GVLM) und domainspezifischen nachgeschalteten Aufgaben schließt. Zudem präsentieren wir eine neue, bild- und textbasierte Datensammlung im Bereich der Fernerkundung (RS), namens RS5M, die 5 Millionen fernerkundliche Bilder mit englischen Beschreibungen umfasst. Die Datensammlung wurde durch Filterung öffentlich verfügbarer Bild-Text-Paar-Datensätze sowie durch automatisierte Beschreibung von label-only fernerkundlichen Datensätzen mittels vortrainierter VLMs erstellt. Dies stellt die erste großskalige Datensammlung für fernerkundliche Bilder mit Textbeschreibungen dar. Darüber hinaus haben wir das CLIP-Modell fine-tuned und mehrere parameter-effiziente Fine-Tuning-Methoden auf RS5M angewendet, um das DVLM zu implementieren. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Datensammlung für eine Vielzahl von Aufgaben äußerst effektiv ist und unser Modell GeoRSCLIP die Basislinie oder vorherige State-of-the-Art-Modelle in Zero-Shot-Klassifikation (ZSC) um 3 % bis 20 %, in der fernerkundlichen Kreuzmodalen Text-Bild-Recherche (RSCTIR) um 3 % bis 6 % und in der semantischen Lokalisierung (SeLo) um 4 % bis 5 % übertrifft. Die Datensammlung und die Modelle wurden veröffentlicht unter: \url{https://github.com/om-ai-lab/RS5M}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RS5M und GeoRSCLIP: Ein großskaliges Vision-Language-Datensatz und ein großes Vision-Language-Modell für die Fernerkundung | Paper | HyperAI