SemiCD-VL: Visuelle-sprachliche Modellführung verbessert den halbüberwachten Changendetektor

Change Detection (CD) zielt darauf ab, Pixel mit semantischen Änderungen zwischen Bildern zu identifizieren. Die Annotation großer Mengen von pixelbasierten Bildern ist jedoch arbeitsintensiv und kostspielig, insbesondere bei multitemporalen Bildern, die von menschlichen Experten pixelweise verglichen werden müssen. Angesichts der ausgezeichneten Leistung visueller Sprachmodelle (VLMs) bei Null-Shot-Lernen, offenen Vokabularen usw. durch promptbasiertes Schließen, bietet es sich vielversprechend an, VLMs zur besseren CD unter begrenzten annotierten Daten zu nutzen. In dieser Arbeit schlagen wir eine VLM-gestützte semi-überwachte CD-Methode vor, die SemiCD-VL genannt wird. Das Konzept von SemiCD-VL besteht darin, freie Änderungslabels mithilfe von VLMs zu synthetisieren, um zusätzliche Überwachungssignale für nicht annotierte Daten bereitzustellen. Fast alle aktuellen VLMs sind jedoch für einstellige Bilder konzipiert und können nicht direkt auf bi- oder multitemporale Bilder angewendet werden. Aus diesem Grund schlagen wir zunächst eine VLM-basierte Strategie zur generativen Mischung von Änderungsereignissen (CEG) vor, um Pseudolabels für nicht annotierte CD-Daten zu erzeugen. Da die zusätzlichen überwachten Signale, die durch diese VLM-getriebenen Pseudolabels bereitgestellt werden, möglicherweise mit den Pseudolabels aus dem Paradigma der Konsistenzregularisierung (z.B. FixMatch) kollidieren können, schlagen wir einen Doppelprojektionskopf vor, um verschiedene Signalquellen voneinander zu trennen. Darüber hinaus entkoppeln wir die semantische Repräsentation der bi-temporalen Bilder explizit durch zwei Nebensegmentierungsdecoder, die ebenfalls von VLM geleitet werden. Schließlich führen wir metrikbewusste Überwachung durch featurebasierte kontrastive Verlustfunktion in den Nebenzweigen ein, um das Modell dazu zu befähigen, Änderungsrepräsentationen besser zu erfassen. Umfangreiche Experimente zeigen den Vorteil von SemiCD-VL. Zum Beispiel verbessert SemiCD-VL die FixMatch-Basislinie um +5,3 IoU auf WHU-CD und um +2,4 IoU auf LEVIR-CD bei 5 % annotierten Daten. Zudem kann unsere CEG-Strategie in einem unüberwachten Ansatz Leistungen erzielen, die weit über denen der besten unüberwachten CD-Methoden liegen.请注意,这里将“feature-level contrastive loss”翻译为“featurebasierte kontrastive Verlustfunktion”,以符合德语中的术语表达习惯。其他术语如“Change Detection (CD)”、“visual language models (VLMs)”、“pseudo labels”等在德语中也有相应的专业表达。