17일 전

Transformer과 컨볼루션의 만남: 매우 미세한 해상도 도시 영상의 세그멘테이션을 위한 이중 인식 네트워크

Libo Wang, Rui Li, Dongzhi Wang, Chenxi Duan, Teng Wang, Xiaoliang Meng
Transformer과 컨볼루션의 만남: 매우 미세한 해상도 도시 영상의 세그멘테이션을 위한 이중 인식 네트워크
초록

매우 높은 해상도(VFR) 도시 환경 이미지에서의 의미 분할은 자율 주행, 지형 분류, 도시 계획 등 다양한 응용 시나리오에서 중요한 역할을 한다. 그러나 VFR 이미지에 포함된 막대한 세부 정보, 특히 객체의 규모 및 외관 측면에서의 상당한 변동성은 기존의 딥러닝 기법의 잠재력을 심각하게 제한한다. 이러한 문제를 해결하는 것은 원격 탐사 분야에서 매우 유망한 연구 분야이며, 장면 수준의 풍경 패턴 분석 및 의사결정을 위한 길을 열어준다. 본 논문에서는 VFR 이미지 내의 장거리 관계와 미세한 세부 정보를 효과적으로 포착하기 위해 종속성 경로(dependency path)와 텍스처 경로(texture path)를 포함하는 이중 인식 네트워크(Bilateral Awareness Network, BANet)를 제안한다. 구체적으로, 종속성 경로는 메모리 효율적인 다중 헤드 자기 주의(Self-attention)를 갖춘 새로운 Transformer 백본인 ResT를 기반으로 구현되며, 텍스처 경로는 반복된 컨볼루션 연산을 기반으로 구성된다. 또한 선형 주의(Linear Attention) 메커니즘을 활용하여 종속성 특징과 텍스처 특징을 효과적으로 융합할 수 있는 특징 융합 모듈을 설계하였다. ISPRS Vaihingen 데이터셋, ISPRS Potsdam 데이터셋, UAVid 데이터셋 등 세 가지 대규모 도시 환경 이미지 분할 데이터셋을 대상으로 실시한 광범위한 실험을 통해 BANet의 효과성을 입증하였다. 특히 UAVid 데이터셋에서 64.6%의 mIoU를 달성하였다. 코드는 https://github.com/WangLibo1995/GeoSeg 에서 공개되어 있다.

Transformer과 컨볼루션의 만남: 매우 미세한 해상도 도시 영상의 세그멘테이션을 위한 이중 인식 네트워크 | 최신 연구 논문 | HyperAI초신경