17일 전

비전 트랜스포머에 대해 모두 알아야 할 세 가지 사항

Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Jakob Verbeek, Hervé Jégou
비전 트랜스포머에 대해 모두 알아야 할 세 가지 사항
초록

자연어 처리 분야에서의 초기 성공 이후, 트랜스포머 아키텍처는 컴퓨터 비전 분야로 빠르게 확산되어 이미지 분류, 객체 탐지, 세그멘테이션, 영상 분석 등 다양한 작업에서 최고 수준의 성능을 보여주고 있다. 본 연구에서는 시각 트랜스포머(Vision Transformers)의 간단하고 구현이 쉬운 변형을 기반으로 세 가지 통찰을 제시한다. (1) 보통 순차적으로 처리되는 시각 트랜스포머의 잔차 레이어(residual layers)는 정확도에 크게 영향을 주지 않으면서도 일부 범위 내에서 병렬 처리가 가능하다. (2) 어텐션 레이어의 가중치만 미세 조정(fine-tuning)하는 것으로도 시각 트랜스포머를 더 높은 해상도 및 다른 분류 작업에 효과적으로 적응시킬 수 있다. 이는 계산량을 절감하고, 미세 조정 시 최대 메모리 사용량을 줄이며, 작업 간 대부분의 가중치를 공유할 수 있게 한다. (3) MLP 기반의 패치 사전 처리 레이어를 추가하면, 패치 마스킹 기반의 베르트(BERT)-유사 자기지도 학습(self-supervised learning) 성능이 향상된다. 이러한 설계 선택의 영향을 ImageNet-1k 데이터셋을 이용해 평가하였으며, ImageNet-v2 테스트 세트에서도 연구 결과를 확인하였다. 또한, 여섯 개의 보다 작은 데이터셋을 대상으로 전이 학습 성능을 측정하여 결과의 타당성을 검증하였다.