MaskCD: 마스크 분류 기반 원격 탐사 변화 탐지 네트워크

원격 탐사(RS) 영상에서 딥러닝을 활용한 변화 탐지(CD)는 문헌에서 광범위하게 연구되어 왔다. 이는 일반적으로 각 픽셀을 '변화됨' 또는 '변화 없음'으로 분류하는 픽셀 단위의 레이블링 작업으로 간주된다. 인코더-디코더 구조를 기반으로 한 픽셀 단위 분류 네트워크는 여전히 다양한 환경에서 경계의 정확도 부족과 객체 외곽의 불완전한 추출 문제를 겪고 있다. 고해상도 RS 영상에서는 단일 픽셀보다 부분적 또는 전반적인 변화가 발생한 객체가 더 중요한 관심 대상이 된다. 따라서 본 연구는 마스크 예측 및 분류 관점에서 CD 작업을 재검토하고, 입력 영상 쌍으로부터 적응형으로 분류된 마스크를 생성함으로써 변화 영역을 탐지하는 MaskCD를 제안한다. 구체적으로, 변형 가능한 다중 헤드 자기 주의(DeformMHSA)를 활용하여 인코딩된 특징에서 다중 스케일의 변화 인지 특징을 학습하고 시공간 관계를 포착하는 크로스 레벨 변화 표현 인지기(CLCRP)를 도입한다. 이후, 마스킹 주의(masked attention) 및 자기 주의(self-attention) 메커니즘을 기반으로 한 마스크 주의 기반 탐지 트랜스포머(MA-DETR) 디코더를 설계하여 변화된 객체를 정확히 위치 및 식별한다. 이는 픽셀 단위 표현을 가변적인 마스크 후보로 디코딩하고, 이러한 후보들로부터 최종 예측을 수행함으로써 원하는 변화 객체를 재구성한다. 다섯 개의 벤치마크 데이터셋에서의 실험 결과는 제안된 방법이 기존 최첨단 모델들을 능가함을 보여준다. 코드 및 사전 학습된 모델은 온라인에서 공개되어 있다(https://github.com/EricYu97/MaskCD).