ViTAE: 내재된 인덕티브 바이어스 탐색을 통한 비전 트랜스포머의 고도화

Transformers는 자기 주의(self-attention) 메커니즘을 활용한 장거리 의존성 모델링 능력 덕분에 다양한 컴퓨터 비전 작업에서 큰 잠재력을 보여왔다. 그러나 기존의 비전 트랜스포머(Vision Transformers)는 이미지를 1차원 시퀀스 형태의 시각 토큰으로 취급함으로써, 국소적 시각 구조를 모델링하는 데 내재된 유도 편향(inductive bias, IB)이 부족하고, 스케일 변동성(scale variance)에 대응하는 데 한계가 있다. 대안적으로 이러한 IB를 암묵적으로 학습하기 위해서는 대규모 학습 데이터와 긴 학습 스케줄이 필요하다. 본 논문에서는 컨볼루션(convolution)에서 유도되는 내재적 유도 편향을 탐색함으로써 비전 트랜스포머를 개선한 새로운 아키텍처인 ViTAE(Vision Transformer Advanced by Exploring intrinsic IB from convolutions)를 제안한다. 기술적으로 ViTAE는 다양한 dilation률을 가진 다수의 컨볼루션을 사용하여 입력 이미지를 다중 스케일의 풍부한 맥락을 갖는 토큰으로 다운샘플링하고 임베딩하는 여러 공간 피라미드 감소 모듈(spatial pyramid reduction modules)을 포함하고 있다. 이를 통해 내재적인 스케일 불변성(intrinsic scale invariance IB)을 획득하여 다양한 크기의 객체에 대해 강건한 특징 표현을 학습할 수 있다. 또한 각 트랜스포머 레이어에서는 다중 헤드 자기 주의 모듈과 병렬로 컨볼루션 블록을 배치하고, 그 출력 특징을 융합하여 피드포워드 네트워크에 입력한다. 결과적으로 내재적인 국소성 유도 편향(intrinsic locality IB)을 갖추게 되어 국소적 특징과 전역적 의존성 간의 협업 학습이 가능해진다. ImageNet 및 하류 작업에 대한 실험을 통해 ViTAE가 기준 트랜스포머 및 동시 연구들과 비교하여 우수한 성능을 입증하였다. 소스 코드와 사전 학습된 모델은 GitHub에서 공개될 예정이다.