17일 전
고해상도 원격 감지 이미지에 대한 새로운 트랜스포머 기반 세밀한 세그멘테이션 방식
Libo Wang, Rui Li, Chenxi Duan, Ce Zhang, Xiaoliang Meng, Shenghui Fang

초록
완전 컨볼루션 네트워크(FCN)는 인코더-디코더 아키텍처를 채택한 구조로, 의미적 세그멘테이션의 표준 패러다임으로 자리 잡았다. 인코더-디코더 아키텍처는 다수의 레벨 특징 맵을 추출하기 위해 인코더를 활용하며, 이를 디코더를 통해 최종 예측에 통합한다. 정확한 세그멘테이션을 위해 맥락 정보가 매우 중요하므로, 확장된(다이레이티드)/아트로스 컨볼루션을 활용하거나 주의(attention) 모듈을 삽입하는 등 지능적인 방식으로 맥락 정보를 추출하기 위한 많은 노력이 이루어져 왔다. 그러나 이러한 기존 연구들은 모두 ResNet 또는 기타 백본을 사용하는 FCN 아키텍처에 기반하고 있어, 이론적으로 가능한 맥락 정보를 충분히 활용하지 못하고 있다. 반면 본 연구에서는 맥락 정보를 추출하기 위해 스윙 트랜스포머(Swin Transformer)를 백본으로 도입하고, 특징 맵의 해상도를 복원하며 세그멘테이션 맵을 생성하기 위해 밀집 연결 특징 집계 모듈(Densely Connected Feature Aggregation Module, DCFAM)을 새롭게 설계하였다. 두 개의 원격 감지 의미적 세그멘테이션 데이터셋에서 수행한 실험 결과는 제안된 방식의 효과성을 입증한다. 코드는 다음 주소에서 확인 가능하다: https://github.com/WangLibo1995/GeoSeg