17일 전

ViTAEv2: 이미지 인식 및 그 이상을 위한 유도 편향 탐색을 통한 시각 변환기 고도화

Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao
ViTAEv2: 이미지 인식 및 그 이상을 위한 유도 편향 탐색을 통한 시각 변환기 고도화
초록

시각 변환기(Vision Transformers)는 자기 주목(self-attention) 메커니즘을 통해 장거리 의존성을 효과적으로 모델링할 수 있는 강력한 능력을 지니고 있어 다양한 컴퓨터 비전 작업에서 큰 잠재력을 보여주고 있다. 그러나 기존의 시각 변환기는 이미지를 1차원의 시각 토큰 시퀀스로 취급함으로써, 국소적 시각 구조를 모델링하거나 스케일 변동성에 대응하는 내재적 유도 편향(inductive bias, IB)이 부족하며, 이러한 특성은 대규모 학습 데이터와 긴 학습 스케줄을 통해 암묵적으로 학습된다. 본 논문에서는 컨볼루션에서 유도되는 내재적 유도 편향을 탐색함으로써 시각 변환기를 보완한 모델, 즉 ViTAE(Vision Transformer Advanced by Exploring intrinsic IB from convolutions)를 제안한다. 기술적으로 ViTAE는 다양한 확장률(dilation rates)을 가진 다수의 컨볼루션을 활용하여 입력 이미지를 다중 스케일의 풍부한 맥락 정보를 가진 토큰으로 다운샘플링 및 임베딩하는 여러 공간 피라미드 감소 모듈(spatial pyramid reduction modules)을 포함하고 있다. 이를 통해 모델은 내재적 스케일 불변성 유도 편향을 획득하게 되며, 다양한 스케일의 객체에 대해 강건한 특징 표현을 학습할 수 있다. 또한 각 트랜스포머 레이어 내부에 다중 헤드 자기 주목 모듈과 병렬로 컨볼루션 블록을 배치하여, 그 특징을 병합한 후 피드포워드 네트워크에 입력한다. 이로 인해 모델은 내재적 국소성 유도 편향을 갖게 되어 국소적 특징과 전역적 의존성을 동시에 학습할 수 있다. 제안된 두 가지 유형의 셀은 등방적(isotropic) 및 다단계(multi-stage) 방식으로 스택되어, ViTAE의 두 가지 계열 모델인 기초형 ViTAE와 ViTAEv2를 구성한다. ImageNet 데이터셋에서의 실험 및 MS COCO, ADE20K, AP10K 데이터셋에서의 하류 작업을 통해 제안 모델이 기준 트랜스포머 모델 및 동시 연구들과 비교하여 우수한 성능을 입증하였다. 또한, ViTAE 모델을 644M 파라미터 규모로 확장하여, 추가적인 사전 데이터 없이도 ImageNet 검증 세트에서 88.5%의 Top-1 분류 정확도를 달성하였으며, ImageNet 실검증 세트에서는 최고 수준의 91.2% Top-1 정확도를 기록하여 최신 기술 수준의 분류 성능을 확보하였다.