15일 전

DSAT-Net: 항공 이미지에서 건물 추출을 위한 이중 공간 주의 변환기

{Guixu Zhang, Qian Zhang, Zhechun Wan, Renhe Zhang}
초록

원격 탐사(RS) 이미지에서 건물 추출을 구현하기 위해서는 지역적 및 전역적 맥락 의존성 모두가 필수적이다. 기존의 합성곱 신경망(CNN)은 지역적 공간 정보를 효과적으로 추출할 수 있지만, 장거리 의존성을 모델링하는 능력이 부족하다. 최근 들어 시각 트랜스포머(ViT)는 전역적 맥락 의존성을 효과적으로 모델링할 수 있는 잠재력을 보여주고 있으나, 일반적으로 큰 계산량을 수반하며, 특징 추출 과정에서 공간 정보의 손실이 발생하는 문제가 있다. CNN과 ViT의 장점을 극대화하기 위해, 본 연구에서는 두 모델을 하나의 아키텍처에 통합한 DSAT-Net을 제안한다. DSAT-Net에서는 표준 ViT의 한계를 보완하기 위해 효율적인 이중 공간 주의(Attention) 트랜스포머(DSAFormer)를 설계하였다. DSAFormer은 서로 보완하는 이중 주의 구조를 가진다. 구체적으로, 전역 주의 경로(GAP)는 전역 자기 주의(attention) 계산 전에 특징 맵에 대해 대규모의 다운샘플링을 수행함으로써 계산 비용을 감소시킨다. 반면, 지역 주의 경로(LAP)는 효율적인 스트라이프 컨볼루션을 활용하여 지역적 주의를 생성함으로써 GAP에서 발생하는 다운샘플링으로 인한 정보 손실을 완화하고 공간적 세부 정보를 보완한다. 또한, 저수준과 고수준 특징을 융합하기 위해 채널 혼합 특징 정제 모듈(Channel Mixing Feature Refine Module, CM-FRM)을 설계하였다. 제안한 모델은 세 가지 공개된 건물 추출 데이터셋에서 경쟁력 있는 성능을 달성하였다. 코드는 다음 주소에서 공개될 예정이다: https://github.com/stdcoutzrh/BuildingExtraction.

DSAT-Net: 항공 이미지에서 건물 추출을 위한 이중 공간 주의 변환기 | 최신 연구 논문 | HyperAI초신경