HyperAIHyperAI
vor 11 Tagen

RS5M und GeoRSCLIP: Ein großskaliges Vision-Language-Datensatz und ein großes Vision-Language-Modell für die Fernerkundung

Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin
RS5M und GeoRSCLIP: Ein großskaliges Vision-Language-Datensatz und ein großes Vision-Language-Modell für die Fernerkundung
Abstract

Vortrainierte Vision-Sprache-Modelle (VLMs), die umfangreiche Paare aus Bild- und Textdaten nutzen, haben beeindruckende Fähigkeiten in der Bild-Text-Assoziation demonstriert und hervorragende Ergebnisse bei verschiedenen nachgeschalteten Aufgaben erzielt. Eine zentrale Herausforderung besteht darin, bestehende großskalige, vortrainierte VLMs, die auf alltäglichen Objekten trainiert wurden, effektiv für eine domainspezifische Übertragung einzusetzen, um domainspezifische nachgeschaltete Aufgaben zu bewältigen. In diesem Paper stellen wir einen neuen Rahmen vor, der das Domain-vortrainierte Vision-Sprache-Modell (DVLM) beinhaltet und die Lücke zwischen dem allgemeinen Vision-Sprache-Modell (GVLM) und domainspezifischen nachgeschalteten Aufgaben schließt. Zudem präsentieren wir eine neue, bild- und textbasierte Datensammlung im Bereich der Fernerkundung (RS), namens RS5M, die 5 Millionen fernerkundliche Bilder mit englischen Beschreibungen umfasst. Die Datensammlung wurde durch Filterung öffentlich verfügbarer Bild-Text-Paar-Datensätze sowie durch automatisierte Beschreibung von label-only fernerkundlichen Datensätzen mittels vortrainierter VLMs erstellt. Dies stellt die erste großskalige Datensammlung für fernerkundliche Bilder mit Textbeschreibungen dar. Darüber hinaus haben wir das CLIP-Modell fine-tuned und mehrere parameter-effiziente Fine-Tuning-Methoden auf RS5M angewendet, um das DVLM zu implementieren. Experimentelle Ergebnisse zeigen, dass unsere vorgeschlagene Datensammlung für eine Vielzahl von Aufgaben äußerst effektiv ist und unser Modell GeoRSCLIP die Basislinie oder vorherige State-of-the-Art-Modelle in Zero-Shot-Klassifikation (ZSC) um 3 % bis 20 %, in der fernerkundlichen Kreuzmodalen Text-Bild-Recherche (RSCTIR) um 3 % bis 6 % und in der semantischen Lokalisierung (SeLo) um 4 % bis 5 % übertrifft. Die Datensammlung und die Modelle wurden veröffentlicht unter: \url{https://github.com/om-ai-lab/RS5M}.

RS5M und GeoRSCLIP: Ein großskaliges Vision-Language-Datensatz und ein großes Vision-Language-Modell für die Fernerkundung | Neueste Forschungsarbeiten | HyperAI