17일 전

비전 트랜스포머: 이미지 분류를 위한 효율적인 어텐션

Pranav Jeevan, Amit Sethi
비전 트랜스포머: 이미지 분류를 위한 효율적인 어텐션
초록

비록 트랜스포머가 자연어 처리 분야에서 선호되는 신경망 아키텍처로 자리 잡았지만, 컴퓨터 비전 분야에서 컨볼루션 신경망(CNN)과 경쟁하기 위해서는 훨씬 더 많은 학습 데이터, GPU 메모리, 그리고 계산 자원을 필요로 한다. 트랜스포머의 어텐션 메커니즘은 입력 시퀀스 길이에 따라 제곱으로 증가하며, 전개된 이미지는 긴 시퀀스 길이를 가지게 된다. 게다가 트랜스포머는 이미지에 적합한 인덕티브 바이어스(유도 편향)를 갖추고 있지 않다. 이러한 한계를 보완하기 위해 비전 트랜스포머(ViT) 아키텍처에 대한 세 가지 개선 방안을 실험하였다. 첫째, 선형 어텐션 메커니즘(예: Performer, Linformer, Nyströmformer 등)을 사용하여 제곱 복잡도의 성능 저하를 완화함으로써, X-formers(여기서 X는 {Performer, Linformer, Nyströmformer} 중 하나를 의미)를 도입하였으며, 이를 통해 비전 X-formers(ViXs)를 설계하였다. 이로 인해 GPU 메모리 요구량이 최대 7배까지 감소하였다. 또한 FNet과 다층 퍼셉트론 믹서(Multi-layer Perceptron Mixers)와의 성능 비교를 통해 GPU 메모리 요구량을 추가로 감소시킬 수 있었다. 둘째, ViX에서 초기 선형 임베딩 레이어를 컨볼루션 레이어로 대체함으로써 이미지에 적합한 인덕티브 바이어스를 도입하였으며, 모델 크기를 증가시키지 않으면서도 분류 정확도를 크게 향상시켰다. 셋째, ViT의 학습 가능한 1차원 위치 임베딩을 로타리 위치 임베딩(Rotary Position Embedding, RoPE)으로 교체함으로써, 동일한 모델 크기에서도 분류 정확도를 향상시킬 수 있었다. 이러한 개선 사항들을 통합함으로써, 데이터와 계산 자원이 제한된 환경에서도 트랜스포머를 보다 접근 가능하게 만들 수 있을 것이라 기대한다.