17일 전

이산적 표현이 비전 트랜스포머의 강건성 강화에 기여한다

Chengzhi Mao, Lu Jiang, Mostafa Dehghani, Carl Vondrick, Rahul Sukthankar, Irfan Essa
이산적 표현이 비전 트랜스포머의 강건성 강화에 기여한다
초록

비전 트랜스포머(Vision Transformer, ViT)는 이미지 인식 분야에서 최신 기술 아키텍처로 부상하고 있다. 최근 연구들은 ViT이 전통적인 컨볼루션 기반 모델보다 더 뛰어난 강건성(로버스트성)을 가진다고 제시하고 있으나, 우리의 실험 결과에 따르면 ImageNet으로 훈련된 ViT는 지역적 텍스처에 과도하게 의존하며, 형태 정보를 충분히 활용하지 못하는 문제가 있다. 이로 인해 ViT는 분포 외(out-of-distribution)의 실제 세계 데이터에 대한 일반화 능력이 떨어진다. 이러한 문제를 해결하기 위해, 벡터 양자화 인코더(vector-quantized encoder)를 통해 생성된 이산 토큰을 ViT의 입력층에 추가하는 간단하면서도 효과적인 아키텍처 수정을 제안한다. 기존의 연속적인 픽셀 토큰과 달리, 이산 토큰은 미세한 변형에 대해 불변(invariant)이며, 개별적으로는 정보량이 적어, ViT가 전역적인, 불변적인 정보를 학습하도록 유도한다. 실험 결과, 네 가지 다른 아키텍처 변형에 대해 이산 표현을 추가함으로써, 일곱 개의 ImageNet 강건성 벤치마크에서 ViT의 강건성이 최대 12% 향상되며, 동시에 ImageNet 성능은 유지됨을 입증하였다.