17일 전
다중 스케일 고해상도 비전 트랜스포머를 활용한 의미 분할
Jiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye, Meng Li, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra, David Z. Pan

초록
비전 트랜스포머(Vision Transformers, ViTs)는 기존의 합성곱 신경망(Convolutional Neural Network, CNN) 기반 모델에 비해 컴퓨터 비전 작업에서 뛰어난 성능을 보이고 있다. 그러나 ViT는 주로 단일 스케일의 저해상도 표현을 생성하는 이미지 분류에 특화되어 있어, 세분화 분할과 같은 밀집 예측 작업에 어려움을 겪는다. 이를 해결하기 위해 우리는 고해상도 다중 분기 아키텍처를 ViT와 통합함으로써, 의미 정보가 � бог rich하고 공간적으로 정밀한 다중 스케일 표현을 학습할 수 있도록 하는 HRViT를 제안한다. 다양한 브랜치-블록 공동 최적화 기법을 통해 HRViT의 모델 성능과 효율성 사이의 균형을 조절하였다. 구체적으로, 비동질적 브랜치 설계를 탐색하고 선형 계층 내 중복성을 줄이며, 주의(attention) 블록의 표현력을 강화하였다. 이러한 접근은 ADE20K 및 Cityscapes 데이터셋에서의 평가 결과를 통해 HRViT가 세분화 분할 작업에서 성능과 효율성의 파레토 경계를 새롭게 도전할 수 있음을 보여주었다. HRViT는 ADE20K에서 50.20%의 mIoU, Cityscapes에서는 83.16%의 mIoU를 달성하며, 최신 기술인 MiT 및 CSWin 백본보다 평균적으로 +1.78%의 mIoU 향상, 28%의 파라미터 절감, 21%의 FLOPs 감소를 기록하여, 세분화 분할을 위한 강력한 비전 백본으로서의 잠재력을 입증하였다.