17일 전
시각 변환기의 가우시안 주의 편향을 효과적 수용 필드를 이용하여 이해하기
Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Sang Woo Kim

초록
시각 변환기(Vision Transformers, ViTs)는 이미지를 분할된 패치들의 시퀀스로 모델링하여 다양한 시각 작업에서 뛰어난 성능을 보여왔다. 그러나 패치를 분할하는 과정에서 이미지의 구조가 소실되므로, 패치의 순서를 반영하기 위해 ViTs는 위치 임베딩(positional embedding)이라는 명시적인 구성 요소를 사용한다. 그러나 우리는 위치 임베딩의 사용이 단순히 ViT의 순서 인식 능력을 보장하지는 않는다고 주장한다. 이 주장을 뒷받침하기 위해, 효과적 수용 영역(effective receptive field)을 활용하여 ViT의 실제 동작을 분석하였다. 그 결과, 학습 과정에서 ViT는 특정 패턴을 학습하도록 설계된 위치 임베딩을 통해 패치의 순서에 대한 이해를 습득함을 밝혔다. 이러한 관찰을 바탕으로, 학습 초기부터 위치 임베딩이 해당 패턴을 가지도록 유도하는 가우시안 주의 편향(Gaussian attention bias)을 명시적으로 추가하는 방법을 제안한다. 제안된 방법의 성능에 미치는 영향을 여러 이미지 분류, 객체 탐지, 세그멘테이션 실험을 통해 평가한 결과, 제안 방법은 ViT가 이미지를 더 잘 이해하도록 돕는 동시에 ImageNet, COCO 2017, ADE20K 등 다양한 데이터셋에서 성능 향상을 이끌어냈다.