17일 전

빅 트랜스퍼(Big Transfer, BiT): 일반적인 시각적 표현 학습

Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil Houlsby
빅 트랜스퍼(Big Transfer, BiT): 일반적인 시각적 표현 학습
초록

사전 훈련된 표현(Representation)의 전이(Transfer)는 시각 영역을 위한 심층 신경망을 훈련할 때 샘플 효율성을 높이고 하이퍼파라미터 튜닝을 단순화하는 데 기여한다. 우리는 대규모 감독 데이터셋에서 사전 훈련한 후 타겟 작업에서 모델을 미세조정하는 전통적인 접근 방식을 재검토한다. 우리는 사전 훈련 과정을 확장하고, 단순한 원칙을 적용한 간단한 절차를 제안하며, 이를 '빅 전이(Big Transfer, BiT)'라 명명한다. 주의 깊게 선택된 몇 가지 구성 요소를 결합하고, 간단한 히우리스틱(heuristic)을 활용한 전이 방식을 통해 20개 이상의 데이터셋에서 뛰어난 성능을 달성한다. BiT는 예상치 못할 정도로 광범위한 데이터 규모에서 우수한 성능을 발휘한다—클래스당 1개의 예시부터 총 100만 개의 예시까지. ILSVRC-2012에서는 상위 1 정확도(top-1 accuracy)가 87.5%에 달하며, CIFAR-10에서는 99.4%, 19개 작업으로 구성된 시각 작업 적응 벤치마크(VTAB)에서는 76.3%의 성능을 기록한다. 소규모 데이터셋에서도 BiT는 클래스당 10개의 예시만으로 ILSVRC-2012에서 76.8%, CIFAR-10에서는 97.0%의 정확도를 달성한다. 본 연구에서는 높은 전이 성능을 이끄는 주요 구성 요소들을 철저히 분석하였다.