11일 전

UNetFormer: 원격 감지 도시 풍경 이미지에 대한 효율적인 세그멘테이션을 위한 유사 UNet Transformer

Libo Wang, Rui Li, Ce Zhang, Shenghui Fang, Chenxi Duan, Xiaoliang Meng, Peter M. Atkinson
UNetFormer: 원격 감지 도시 풍경 이미지에 대한 효율적인 세그멘테이션을 위한 유사 UNet Transformer
초록

원격 감지 도시 영상의 의미 분할은 토지 피복도 작성, 도시 변화 탐지, 환경 보호 및 경제 평가 등 다양한 실용적 응용 분야에서 필수적인 기술이다. 딥 러닝 기술의 급속한 발전에 힘입어, 컨볼루션 신경망(Convolutional Neural Network, CNN)은 수년간 의미 분할 분야를 지배해 왔다. CNN은 계층적인 특징 표현 방식을 채택하여 국소 정보 추출에 뛰어난 성능을 보이고 있으나, 컨볼루션 계층의 국소적 특성으로 인해 전역적인 맥락 정보를 포착하는 데 한계가 있다. 최근 컴퓨터 비전 분야의 핫 이슈로 부상한 트랜스포머(Transformer)는 전역 정보 모델링 측면에서 높은 잠재력을 입증하며, 이미지 분류, 객체 탐지 및 특히 의미 분할과 같은 다양한 비전 작업에 큰 기여를 하고 있다. 본 논문에서는 트랜스포머 기반의 디코더를 제안하고, UNet 구조를 기반으로 한 트랜스포머 기반 아키텍처인 UNetFormer을 구축하여 실시간 도시 영상 분할을 실현한다. 효율적인 분할을 위해 UNetFormer은 경량화된 ResNet18을 인코더로 선택하고, 디코더에서 전역 및 국소 정보를 동시에 모델링할 수 있는 효율적인 글로벌-로컬 주의 메커니즘을 개발하였다. 광범위한 실험 결과는 제안한 방법이 최신 경량 모델들에 비해 더 빠른 속도와 더 높은 정확도를 동시에 달성함을 보여준다. 구체적으로, 제안된 UNetFormer은 UAVid 및 LoveDA 데이터셋에서 각각 67.8%, 52.4%의 mIoU를 달성하였으며, 단일 NVIDIA GTX 3090 GPU에서 512×512 입력 크기로 최대 322.4 FPS의 추론 속도를 기록하였다. 추가적인 탐색 결과, 제안한 트랜스포머 기반 디코더와 Swin Transformer 기반 인코더를 결합한 모델은 Vaihingen 데이터셋에서 최신 기술 수준의 성능(91.3% F1 점수, 84.1% mIoU)을 달성하였다. 본 연구의 소스 코드는 https://github.com/WangLibo1995/GeoSeg 에서 무료로 공개될 예정이다.