9일 전
일반 시각 변환기의 발전을 통한 원격 탐사 기반 모델 구축
Di Wang, Qiming Zhang, Yufei Xu, Jing Zhang, Bo Du, Dacheng Tao, Liangpei Zhang

초록
대규모 시각 기반 모델은 자연 이미지에서 시각 작업에 있어 상당한 진전을 이루었으며, 확장성과 표현 능력이 우수한 점에서 비전 트랜스포머가 주로 선택되고 있다. 그러나 원격 탐사(RS) 분야의 대규모 모델은 아직 충분히 탐색되지 않았다. 본 논문에서는 약 1억 개의 파라미터를 갖는 단순한 비전 트랜스포머를 활용하여, RS 작업에 특화된 대규모 비전 모델을 처음으로 제안하고, 이러한 대규모 모델의 성능에 대해 탐구한다. 원격 탐사 이미지의 크기가 크고 객체의 방향이 임의일 수 있는 문제를 해결하기 위해, 기존 트랜스포머의 전체 주의(attention)를 대체할 새로운 회전 가능한 크기 변형 윈도우 주의(rotated varied-size window attention)를 제안한다. 이 방법은 생성된 다양한 윈도우에서 풍부한 맥락을 추출함으로써 더 나은 객체 표현을 학습할 수 있으며, 동시에 계산 비용과 메모리 사용량을 크게 감소시킬 수 있다. 탐지 작업에 대한 실험 결과, 제안 모델은 모든 최신 기술 모델을 능가하며, DOTA-V1.0 데이터셋에서 81.24%의 mAP를 달성하였다. 하류 작업인 분류 및 세그멘테이션에 대한 실험 결과도 기존 고성능 방법들과 경쟁 가능한 성능을 보였다. 추가 실험을 통해 제안 모델이 전이 학습 시 계산 복잡도와 데이터 효율성 측면에서 우수한 성능을 발휘함을 확인하였다.