HyperAIHyperAI
vor 11 Tagen

ChangeCLIP: Fernerkundungsbasierte Änderungserkennung mit multimodaler vision-sprachlicher Repräsentationslernung

{Xiaoliang Meng, Bo Du, Libo Wang, Sijun Dong}
Abstract

Die Fernerkundungs-Änderungserkennung (Remote Sensing Change Detection, RSCD), die darauf abzielt, Oberflächenveränderungen aus zweizeitlichen Bildern zu identifizieren, ist für zahlreiche Anwendungen von großer Bedeutung, beispielsweise im Umweltschutz und bei der Katastrophenüberwachung. In den letzten zehn Jahren haben zahlreiche auf tiefen Lernverfahren basierende Änderungserkennungsmethoden aufgrund der KI-Welle erhebliche Fortschritte erzielt. Allerdings legen diese Ansätze stärker Wert auf die Lernung visueller Darstellungen und vernachlässigen dabei das Potenzial multimodaler Daten. Kürzlich hat das Fundament-Visual-Sprache-Modell, nämlich CLIP, ein neues Paradigma für multimodale KI etabliert und beeindruckende Leistungen bei nachgeschalteten Aufgaben gezeigt. In Anlehnung an diesen Trend stellen wir in dieser Studie ChangeCLIP vor – einen neuartigen Rahmen, der robuste semantische Informationen aus Bild-Text-Paaren nutzt und speziell für die Fernerkundungs-Änderungserkennung (RSCD) entwickelt wurde. Konkret rekonstruieren wir das ursprüngliche CLIP, um zweizeitliche Merkmale zu extrahieren, und schlagen einen neuen Modul zur Kompensation differenzierter Merkmale vor, um detaillierte semantische Veränderungen zwischen den Bilddaten zu erfassen. Zudem entwickeln wir einen vision-sprache-getriebenen Decoder, der die Ergebnisse der Bild-Text-Codierung mit den visuellen Merkmalen der Dekodierungsphase kombiniert, um die Bildsemantik zu verbessern. ChangeCLIP erreicht state-of-the-art-IoU-Werte auf fünf etablierten Änderungserkennungs-Datensätzen: LEVIR-CD (85,20 %), LEVIR-CD+ (75,63 %), WHUCD (90,15 %), CDD (95,87 %) und SYSU-CD (71,41 %). Der Quellcode und die vortrainierten Modelle von ChangeCLIP werden öffentlich auf https://github.com/dyzy41/ChangeCLIP bereitgestellt.

ChangeCLIP: Fernerkundungsbasierte Änderungserkennung mit multimodaler vision-sprachlicher Repräsentationslernung | Neueste Forschungsarbeiten | HyperAI