SemiCD-VL: 시각-언어 모델 안내가 더 나은 반감독 변화 검출기 생성

변화 감지(Change Detection, CD)는 이미지 간의 의미적 변화를 식별하는 데 목표를 두고 있습니다. 그러나 대규모 픽셀 단위 이미지를 주석화하는 것은 노동 집약적이며 비용이 많이 들며, 특히 다중 시점 이미지는 인간 전문가에 의한 픽셀 단위 비교가 필요하기 때문에 더욱 그렇습니다. 시각 언어 모델(Vision-Language Models, VLMs)이 제로샷(zero-shot), 오픈 보카브러리(open-vocabulary) 등 프롬프트 기반 추론에서 우수한 성능을 보이는 점을 고려하면, 제한된 라벨링 데이터 하에서 더 나은 CD를 위해 VLMs를 활용하는 것이 유망합니다. 본 논문에서는 VLM 지도 기반 반監督(semi-supervised) CD 방법인 SemiCD-VL을 제안합니다. SemiCD-VL의 핵심 아이디어는 VLMs를 사용하여 무료로 변화 라벨을 합성하여 비라벨링 데이터에 대한 추가적인 감독 신호를 제공하는 것입니다. 그러나 현재 대부분의 VLMs는 단일 시점 이미지를 위한 설계로, 이들을 직접적으로 이시점 또는 다중 시점 이미지에 적용할 수 없습니다. 이를 해결하기 위해, 우리는 먼저 VLM 기반 혼합 변화 이벤트 생성(Change Event Generation, CEG) 전략을 제안하여 비라벨링 CD 데이터에 대한 가짜 라벨을 생성합니다. 이러한 VLM 구동 가짜 라벨이 일관성 정규화 패러다임(예: FixMatch)으로부터 얻은 가짜 라벨과 충돌할 수 있으므로, 서로 다른 신호 원을 분리하기 위한 듀얼 투영 헤드(Dual Projection Head)를 제안합니다. 또한, 우리는 두 개의 보조 세그멘테이션 디코더(auxiliary segmentation decoders)를 통해 이시점 이미지의 의미적 표현을 명시적으로 분리하며, 이들 역시 VLM에 의해 안내됩니다. 마지막으로, 모델이 변화 표현을 더 적절하게 포착하도록 하기 위해 보조 분기에 특징 수준 대비 손실(feature-level contrastive loss)을 도입하여 메트릭 인식 감독(metric-aware supervision)을 실현합니다. 광범위한 실험 결과는 SemiCD-VL의 우월성을 입증하였습니다. 예를 들어, 5%의 라벨만 사용해도 WHU-CD에서 FixMatch 베이스라인보다 +5.3 IoU(IoU: Intersection over Union), LEVIR-CD에서는 +2.4 IoU(IoU: Intersection over Union) 개선 효과를 나타냈습니다. 또한 우리의 CEG 전략은 비지도 방식으로 최신 비지도 CD 방법론보다 훨씬 우수한 성능을 달성할 수 있었습니다.