ChangeMamba: Spatiotemporal State Space Model을 이용한 원격 감지 변화 탐지

컨벌루션 신경망(CNN)과 트랜스포머는 원격 감지 변화 탐지(CD) 분야에서 인상적인 진전을 이룩하였습니다. 그러나 두 가지 아키텍처 모두 고유의 단점이 있습니다. CNN은 제한된 수용 영역으로 인해 더 넓은 공간적 맥락을 포착하는 능력에 제약을 받을 수 있으며, 트랜스포머는 계산적으로 비용이 많이 들기 때문에 대규모 데이터셋에서 학습 및 배포할 때 비용이 많이 듭니다. 최근, 상태 공간 모델(state space models) 기반의 맘바(Mamba) 아키텍처가 일련의 자연어 처리 작업에서 뛰어난 성능을 보여주었으며, 이는 위 두 가지 아키텍처의 단점을 효과적으로 보완할 수 있습니다. 본 논문에서는 처음으로 맘바 아키텍처의 원격 감지 CD 작업에 대한 잠재력을 탐구합니다. 우리는 이에 맞춰 바이너리 변화 탐지(BCD), 의미론적 변화 탐지(SCD), 그리고 건물 피해 평가(BDA)를 각각 위한 MambaBCD, MambaSCD, MambaBDA라는 프레임워크를 개발하였습니다. 세 가지 프레임워크 모두 최신의 시각적 맘바(Vision Mamba) 아키텍처를 인코더로 채택하여 입력 이미지로부터 전역적인 공간적 맥락 정보를 완전히 학습할 수 있도록 하였습니다. 변화 디코더는 세 가지 아키텍처 모두에서 사용되며, 우리는 이를 위해 세 가지 시공간 관계 모델링 메커니즘을 제안하였습니다. 이러한 메커니즘들은 맘바 아키텍처와 자연스럽게 결합될 수 있으며, 다시 말해 그 속성들을 충분히 활용하여 다시 발생하는 특징들의 시공간 상호작용을 달성하고 정확한 변화 정보를 얻을 수 있습니다. 다섯 개의 벤치마크 데이터셋에서 제안된 프레임워크들은 복잡한 학습 전략이나 기술 없이도 현재 CNN 및 트랜스포머 기반 접근법보다 우수한 성능을 보였으며, 이는 맘바 아키텍처가 CD 작업에서 갖는 잠재력을 완전히 입증하였습니다. 추가 실험 결과, 우리의 아키텍처는 저하된 데이터에 대해 매우 강건함을 확인할 수 있었습니다. 소스 코드는 https://github.com/ChenHongruixuan/MambaCD 에서 제공될 예정입니다.