摘要
遥感变化检测(Remote Sensing Change Detection, RSCD)旨在通过双时相遥感图像识别地表变化,广泛应用于环境监测、灾害预警等多个领域。过去十年,在人工智能浪潮的推动下,基于深度学习的变化检测方法不断涌现,并取得了显著突破。然而,这些方法多聚焦于视觉表征学习,忽视了多模态数据的潜在价值。近年来,基础视觉-语言模型(如CLIP)为多模态人工智能提供了新范式,在下游任务中展现出卓越性能。受此趋势启发,本文提出一种新型框架——ChangeCLIP,该框架充分利用图像-文本对中的鲁棒语义信息,专门面向遥感变化检测任务。具体而言,我们对原始CLIP模型进行了重构,以提取双时相遥感图像的特征,并设计了一种新颖的差异特征补偿模块,用于捕捉两者之间的细粒度语义变化。此外,我们提出一种基于视觉-语言驱动的解码器,通过融合图像-文本编码结果与解码阶段的视觉特征,进一步增强图像语义表达能力。实验结果表明,所提出的ChangeCLIP在五个广泛使用的遥感变化检测数据集上均达到当前最优性能,具体表现为:LEVIR-CD(IoU: 85.20%)、LEVIR-CD+(IoU: 75.63%)、WHUCD(IoU: 90.15%)、CDD(IoU: 95.87%)和SYSU-CD(IoU: 71.41%)。ChangeCLIP的代码及预训练模型将公开发布于 https://github.com/dyzy41/ChangeCLIP。