2달 전

데이터 효율적인 이미지 트랜스포머 훈련 및 주의를 통한 디스틸레이션

Touvron, Hugo ; Cord, Matthieu ; Douze, Matthijs ; Massa, Francisco ; Sablayrolles, Alexandre ; Jégou, Hervé
데이터 효율적인 이미지 트랜스포머 훈련 및 주의를 통한 디스틸레이션
초록

최근, 순수한 주의력(attention)에 기반한 신경망이 이미지 분류와 같은 이미지 이해 작업을 처리할 수 있다는 것이 입증되었습니다. 그러나 이러한 시각 변환기들은 비싼 인프라스트럭처를 사용하여 수억 장의 이미지를 통해 사전 훈련되기 때문에, 그들의 채택이 제한되고 있습니다.본 연구에서는 ImageNet 데이터셋만을 사용하여 훈련시켜 경쟁력 있는 합성곱(convolution) 없는 변환기를 생성하였습니다. 우리는 단일 컴퓨터에서 3일 미만으로 이들을 훈련시켰습니다. 우리의 기준 시각 변환기(86M 파라미터)는 외부 데이터 없이 ImageNet에서 단일 크롭 평가(single-crop evaluation)로 83.1%의 상위-1 정확도를 달성하였습니다.더 중요한 점은, 변환기에 특화된 교사-학생 전략을 도입하였다는 것입니다. 이 전략은 주의력을 통해 학생이 교사로부터 배울 수 있도록 하는 디스틸레이션 토큰(distillation token)에 의존합니다. 우리는 특히 교사로 합성곱 네트워크(convnet)를 사용할 때 이 토큰 기반 디스틸레이션의 유용성을 보여주었습니다. 이를 통해 ImageNet(우리는 최대 85.2%의 정확도를 얻었음)과 다른 작업으로의 전이 학습에서 합성곱 네트워크와 경쟁력 있는 결과를 보고하였습니다. 우리는 우리의 코드와 모델을 공유합니다.

데이터 효율적인 이미지 트랜스포머 훈련 및 주의를 통한 디스틸레이션 | 최신 연구 논문 | HyperAI초신경