LMFNet: 고해상도 원격 탐사에서 의미 분할을 위한 효율적인 다중모달 융합 접근법

고해상도 원격 감지 영상에서 토지 피복 분류를 위한 의미론적 세분화 기술은 급속히 발전하고 있으나, 디지털 표면 모델(DSM), RGB, 근적외선(NIR)과 같은 다양한 데이터 모달리티를 통합하는 것은 여전히 도전 과제로 남아 있다. 기존의 방법들은 일반적으로 두 가지 유형의 데이터만 처리하여 추가 모달리티가 제공하는 풍부한 정보를 누락하고 있다. 이러한 격차를 보완하기 위해, 다중 모달 원격 감지 이미지의 융합 및 의미론적 세분화를 수행할 수 있는 새로운 \textbf{L}ightweight \textbf{M}ultimodal data \textbf{F}usion \textbf{Net}work (LMFNet)을 제안한다. LMFNet은 파라미터 수를 최소화하면서도 강력한 특징 추출을 보장하는 가중치 공유형 다중 브랜치 비전 트랜스포머를 통해 RGB, NirRG, DSM 등 다양한 데이터 유형을 동시에 처리할 수 있다. 제안하는 다중 모달 융합 모듈은 \textit{다중 모달 특징 융합 재구성 레이어}와 \textit{다중 모달 특징 자기 주의 융합 레이어}를 포함하며, 이는 다중 모달 특징을 재구성하고 융합할 수 있다. US3D, ISPRS Potsdam, ISPRS Vaihingen과 같은 공개 데이터셋에서 실시한 광범위한 실험을 통해 LMFNet의 효과성을 입증하였다. 특히 US3D 데이터셋에서 평균 교차율(mIoU) 85.09\%를 달성하여 기존 방법 대비 크게 향상된 성능을 보였다. 단일 모달 접근법에 비해 LMFNet은 파라미터 수가 단 0.5M 증가한 상태에서 mIoU에서 10\%의 개선을 보였으며, 이중 모달 방법에 비해 삼중 입력을 활용한 본 연구 방법은 mIoU를 0.46%포인트 향상시켰다.