ChangeCLIP: 다중모달 비전-언어 표현 학습을 통한 원격 탐사 변화 탐지
원격 탐사 변화 탐지(Remote Sensing Change Detection, RSCD)는 이시기 이미지 쌍에서 지표면의 변화를 식별하는 것을 목표로 하며, 환경 보호 및 재해 모니터링과 같은 다양한 응용 분야에서 중요한 의미를 갖는다. 지난 10년간 인공지능의 확산을 계기로 딥러닝 기반의 변화 탐지 방법이 다수 등장하였고, 이는 본질적인 성과를 달성하였다. 그러나 이러한 기법들은 시각적 표현 학습에 집중하는 반면, 다중모달 데이터의 잠재력을 간과하고 있었다. 최근, 기초 시각-언어 모델인 CLIP이 다중모달 AI의 새로운 패러다임을 제시하며 하류 작업에서 뛰어난 성능을 보여주고 있다. 이러한 흐름을 따르며, 본 연구에서는 원격 탐사 변화 탐지(RSCD)에 특화된 새로운 프레임워크인 ChangeCLIP을 제안한다. ChangeCLIP은 이미지-텍스트 쌍으로부터 강력한 의미 정보를 활용하여, 이시기 특징을 추출하고, 두 이미지 간의 세부적인 의미적 변화를 포착하기 위해 새로운 차이 특징 보정 모듈(differential features compensation module)을 제안한다. 또한, 이미지-텍스트 인코딩 결과와 디코딩 단계의 시각적 특징을 결합하여 시각-언어 기반의 디코더를 설계함으로써 이미지의 의미 정보를 강화하였다. 제안된 ChangeCLIP은 5개의 유명한 변화 탐지 데이터셋에서 최신 기술(SOTA) 수준의 IoU 성능을 달성하였으며, 각각 LEVIR-CD(85.20%), LEVIR-CD+(75.63%), WHUCD(90.15%), CDD(95.87%), SYSU-CD(71.41%)의 성능을 기록하였다. ChangeCLIP의 소스 코드 및 사전 학습 모델은 공개적으로 https://github.com/dyzy41/ChangeCLIP 에서 제공될 예정이다.