15일 전

SDSC-UNet: 건물 추출을 위한 이중 스킵 연결 ViT 기반 U형 모델

{Guixu Zhang, Qian Zhang, Renhe Zhang}
초록

효율적인 전 세계 정보 상호작용의 이점을 활용하여, 비전 트랜스포머(Vision Transformers, ViTs)는 건물 추출 작업에서 널리 사용되고 있다. 그러나 원격 탐사(Remote Sensing, RS) 이미지 내 건물은 일반적으로 크기가 매우 다양하다. RS 이미지에 기반한 주류 ViT 기반 세그멘테이션 모델은 스위н 트랜스포머(Swin Transformer)를 기반으로 하며, 이는 ViT 블록 내부에 다중 스케일 정보를 갖추지 못하는 한계를 지닌다. 또한 이러한 모델들은 단지 전체 ViT 인코더 블록의 출력만 디코더에 연결할 뿐, ViT 인코더 블록 내부의 어텐션 맵들 간의 유사성 정보를 무시하게 되며, 디코더에 더 나은 전역 종속성 정보를 제공하지 못한다. 위 문제들을 해결하기 위해, 본 연구에서는 모델 내부에서 다중 스케일 정보를 효과적으로 포착하고 전역 종속성을 완전히 구축할 수 있는 새로운 셔넌트 트랜스포머(Shunted Transformer)를 제안한다. 이를 통해 순수한 ViT 기반의 U자형 구조 모델을 건물 추출을 위해 설계하였다. 또한 기존 U자형 구조의 단일 스케일 연결 구조와는 달리, 모델 내부에 새로운 이중 스케일 연결 구조(dual skip connection structure)를 도입하였다. 이 구조는 ViT 인코더 블록 내부의 어텐션 맵과 전체 출력을 동시에 디코더로 전달함으로써, ViT 인코더 블록의 정보를 극대한 활용하고 디코더에 보다 우수한 전역 정보 지도를 제공한다. 따라서 본 모델은 ‘셔넌트 이중 스케일 연결 U넷(Shunted Dual Skip Connection UNet, SDSC-UNet)’이라 명명하였다. 또한 정보를 효과적으로 통합하기 위해 이중 스케일 업샘플링 융합 모듈(Dual Skip Upsample Fusion Module, DSUFM)을 설계하였다. 제안된 모델은 인리아 항공 이미지 레이블링 데이터셋(Inria Aerial Image Labeling Dataset)에서 최신 기준(SOTA) 성능을 달성하였으며, IoU 지표는 83.02%를 기록하였다. 코드는 다음 링크에서 공개될 예정이다: https://github.com/stdcoutzrh/BuildingExtraction.

SDSC-UNet: 건물 추출을 위한 이중 스킵 연결 ViT 기반 U형 모델 | 최신 연구 논문 | HyperAI초신경