
원래 자연어 처리 작업을 위해 설계된 자기 주의(self-attention) 메커니즘은 최근 컴퓨터 비전 분야에서 광범위하게 활용되고 있다. 그러나 이미지의 2차원 구조 특성은 자기 주의 메커니즘을 컴퓨터 비전에 적용할 때 세 가지 주요 도전 과제를 야기한다. (1) 이미지를 1차원 시퀀스로 취급하면 2차원 구조 정보를 무시하게 된다. (2) 계산 복잡도가 제곱 수준이므로 고해상도 이미지에 적용하기에 비용이 지나치게 높다. (3) 공간적 적응성만을 고려하지만 채널적 적응성은 간과한다. 본 논문에서는 이러한 단점을 극복하면서 자기 주의 메커니즘의 자가 적응성과 장거리 상관관계를 가능하게 하는 새로운 선형 주의 메커니즘인 '대규모 커널 주의(Large Kernel Attention, LKA)'를 제안한다. 또한 LKA 기반의 신경망 구조인 '시각 주의 네트워크(Visual Attention Network, VAN)'를 제시한다. 매우 간단한 구조임에도 불구하고, VAN은 이미지 분류, 객체 탐지, 세그멘테이션(세분화), 팔레오히스틱 세그멘테이션, 자세 추정 등 다양한 작업에서 유사한 크기의 비전 트랜스포머(ViTs)와 합성곱 신경망(CNNs)을 능가한다. 예를 들어, VAN-B6는 ImageNet 벤치마크에서 87.8%의 정확도를 달성하며 팔레오히스틱 세그멘테이션 분야에서 새로운 최고 성능(58.2 PQ)을 기록했다. 또한, ADE20K 벤치마크에서 VAN-B2는 세그멘테이션 작업에서 Swin-T보다 4% 높은 mIoU(50.1 vs. 46.1)를 기록했으며, COCO 데이터셋에서 객체 탐지 작업에서는 2.6% 높은 AP(48.8 vs. 46.2)를 달성했다. 본 연구는 커뮤니티에 새로운 접근법과 간단하면서도 강력한 기준 모델을 제안한다. 코드는 다음 주소에서 확인 가능하다: https://github.com/Visual-Attention-Network.