17일 전

VOLO: 시각 인식을 위한 비전 아웃룩어

Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan
VOLO: 시각 인식을 위한 비전 아웃룩어
초록

시각 인식 분야는 수년간 합성곱 신경망(Convolutional Neural Networks, CNNs)에 의해 지배되어 왔다. 최근에는 자기 주의(Self-attention) 기반 모델의 잠재력을 보여주는 주목받는 비전 트랜스포머(Visual Transformers, ViTs)가 등장하였지만, 추가 데이터를 제공하지 않는 조건에서는 여전히 최신 SOTA(CNNs)의 성능에 미치지 못하고 있다. 본 연구에서는 이러한 성능 격차를 좁히고, 주의 기반 모델이 실제로 CNN보다 뛰어난 성능을 낼 수 있음을 입증한다. 우리는 ImageNet 분류에서 ViTs의 성능을 제한하는 주요 요인으로, 토큰 표현에 세부 수준의 특징을 효율적으로 인코딩하지 못하는 점을 발견하였다. 이를 해결하기 위해, 새로운 '아웃룩 주의(Outlook Attention)'를 제안하고, 간단하고 일반적인 아키텍처인 '비전 아웃룩어(Vision Outlooker, VOLO)'를 제시한다. 자기 주의는 거시적인 전역 의존성 모델링에 초점을 맞추는 반면, 아웃룩 주의는 토큰에 더 세밀한 수준의 특징과 맥락을 효율적으로 인코딩할 수 있다. 이는 인식 성능에 매우 유익한 것으로 밝혀졌으나, 기존 자기 주의 모델에서는 거의 간과되어 왔다. 실험 결과, VOLO는 추가 학습 데이터 없이도 ImageNet-1K 분류에서 87.1%의 top-1 정확도를 달성하였으며, 이는 이 경쟁적인 기준에서 처음으로 87%를 초과하는 성능을 기록한 모델이다. 또한 사전 훈련된 VOLO는 세그멘테이션과 같은 하류 작업으로 잘 전이되며, Cityscapes 검증 세트에서 84.3%의 mIoU 점수와 ADE20K 검증 세트에서 54.3%의 점수를 달성하였다. 코드는 \url{https://github.com/sail-sg/volo}에서 공개되어 있다.

VOLO: 시각 인식을 위한 비전 아웃룩어 | 최신 연구 논문 | HyperAI초신경