DaViT: 이중 주의력 비전 트랜스포머

본 연구에서는 전역적 맥락을 효과적으로 포착하면서도 계산 효율성을 유지할 수 있는 간단하면서도 효과적인 비전 트랜스포머 아키텍처인 이중 주의력 비전 트랜스포머(Dual Attention Vision Transformers, DaViT)를 제안한다. 우리는 이 문제를 수직적인 관점에서 접근한다: 공간 토큰(spatial tokens)과 채널 토큰(channel tokens)을 모두 활용한 자기주의(self-attention) 메커니즘을 도입한다. 공간 토큰의 경우, 공간 차원이 토큰의 범위를 결정하고, 채널 차원이 토큰의 특징 차원을 정의한다. 반면 채널 토큰의 경우, 그 역으로 채널 차원이 토큰의 범위를 결정하고, 공간 차원이 토큰의 특징 차원을 정의한다. 또한 공간 토큰과 채널 토큰 모두 시퀀스 방향으로 토큰을 그룹화함으로써 전체 모델의 선형 복잡도를 유지한다. 우리는 이러한 두 가지 자기주의가 서로 보완된다는 점을 입증한다: (i) 각 채널 토큰은 전체 이미지의 추상적 표현을 포함하고 있으므로, 채널 간의 주의 점수를 계산할 때 모든 공간 위치를 고려함으로써 채널 주의는 자연스럽게 전역적 상호작용과 표현을 포착할 수 있다; (ii) 공간 주의는 공간 위치 간의 세밀한 상호작용을 수행함으로써 국소적 표현을 정교화하며, 이는 결과적으로 채널 주의에서의 전역 정보 모델링을 보완한다. 광범위한 실험을 통해 DaViT가 네 가지 다른 작업에서 최신 기술(SOTA) 성능을 달성하면서도 효율적인 계산을 수행함을 입증하였다. 추가적인 데이터 없이 DaViT-Tiny, DaViT-Small, DaViT-Base는 각각 28.3M, 49.7M, 87.9M 파라미터를 사용하여 ImageNet-1K에서 82.8%, 84.2%, 84.6%의 top-1 정확도를 달성하였다. 또한 약 15억 개의 약한 감독된 이미지-텍스트 쌍을 활용하여 DaViT를 확장한 DaViT-Gaint는 ImageNet-1K에서 90.4%의 top-1 정확도를 기록하였다. 코드는 https://github.com/dingmyu/davit 에서 공개되어 있다.