17일 전

DeiT III: ViT의 복수

Hugo Touvron, Matthieu Cord, Hervé Jégou
DeiT III: ViT의 복수
초록

비전 트랜스포머(Vision Transformer, ViT)는 여러 컴퓨터 비전 작업에 적합한 간단한 신경망 아키텍처이다. 최근의 다른 아키텍처들과 달리, ViT는 입력 데이터나 특정 작업에 대한 사전 지식을 내장한 구조적 사전 지식(prior)이 제한적이다. 최근 연구들은 ViT가 특히 BeiT와 같은 BERT 유사한 자기지도 학습(self-supervised pre-training)을 통해 큰 이점을 얻는다는 점을 보여주었다. 본 논문에서는 ViT의 지도 학습(supervised training)을 다시 조명한다. 제안하는 방법은 ResNet-50 학습을 위해 제안된 기존 레시피를 기반으로 하되, 이를 단순화한 것으로, 단지 3가지의 간단한 데이터 증강(data-augmentation) 절차만을 포함하며, 자기지도 학습의 관행과 더 가까운 방식을 채택한다. 이미지 분류(ImageNet-1k, ImageNet-21k에서 사전 학습 여부에 따라), 전이 학습(transfer learning), 그리고 의미 세분화(semantic segmentation)에 대한 평가 결과, 본 연구의 방법은 기존의 완전한 지도 학습 레시피보다 크게 우수한 성능을 보였다. 또한, 본 연구에서 지도 학습으로 학습된 ViT의 성능이 최근에 등장한 다른 아키텍처와 비교해도 유사한 수준임을 확인할 수 있었다. 본 연구의 결과는 ViT 기반의 최신 자기지도 학습 접근법에 대한 더 나은 기준(baseline)이 될 수 있다.

DeiT III: ViT의 복수 | 최신 연구 논문 | HyperAI초신경