ConViT: 소프트 컨볼루션 유도 편향을 통한 비전 Transformer 개선

컨볼루션 아키텍처는 비전 작업에서 매우 성공적인 성과를 거두었다. 이들은 샘플 효율적인 학습을 가능하게 하는 강력한 사전 편향(inductive biases)을 갖지만, 그 대가로 성능의 한계가 생길 수 있다는 단점이 있다. 반면, 비전 트랜스포머(Vision Transformers, ViTs)는 더 유연한 자기주의(self-attention) 레이어에 의존하며, 최근 이미지 분류 과제에서 CNN보다 뛰어난 성능을 보여주고 있다. 그러나 ViTs는 대규모 외부 데이터셋에서 고비용의 사전 훈련 또는 기존 컨볼루션 네트워크로부터의 정교화(distillation)가 필요하다는 점이 문제이다. 본 논문에서는 다음과 같은 질문을 제기한다: 두 아키텍처의 장점을 결합하면서 각각의 한계를 피할 수 있을까? 이를 위해 우리는 '게이트형 위치 자기주의(Gated Positional Self-Attention, GPSA)'를 제안한다. GPSA는 '소프트'(soft) 컨볼루션 사전 편향을 내장할 수 있는 위치 자기주의의 한 형태이다. GPSA 레이어를 컨볼루션 레이어의 국소성(locality)을 모방하도록 초기화한 후, 각 자기주의 헤드가 게이팅 파라미터를 조정함으로써 위치 정보와 콘텐츠 정보에 할당하는 주의력(attention)을 자유롭게 조절함으로써 국소성에서 벗어날 수 있도록 한다. 이로 인해 생성된 컨볼루션 유사 ViT 아키텍처인 ConViT은 DeiT보다 ImageNet에서 더 뛰어난 성능을 보이며, 샘플 효율성도 크게 향상시켰다. 또한, 우리는 먼저 순수한 자기주의 레이어에서 국소성이 어떻게 촉진되는지를 정량화한 후, GPSA 레이어에서 국소성이 어떻게 회피되는지를 분석함으로써 국소성의 학습 내 역할을 탐구한다. 마지막으로 ConViT의 성공 요인을 더 깊이 이해하기 위해 다양한 아블레이션(ablation) 실험을 제시한다. 본 연구의 코드와 모델은 공개적으로 https://github.com/facebookresearch/convit 에서 제공된다.