2달 전
LiT: 이미지 고정 텍스트 튜닝을 통한 제로샷 전이 학습
Xiaohua Zhai; Xiao Wang; Basil Mustafa; Andreas Steiner; Daniel Keysers; Alexander Kolesnikov; Lucas Beyer

초록
본 논문에서는 콘트라스트 튜닝(contrastive-tuning)을 제시합니다. 이 방법은 이미지와 텍스트 모델을 정렬시키면서도 사전 학습의 이점을 유지하기 위해 대조적 학습(contrastive training)을 활용하는 간단한 기법입니다. 실험 연구를 통해 잠긴(pre-trained) 이미지 모델과 열린(text) 모델의 조합이 가장 효과적임을 발견했습니다. 이를 콘트라스트 튜닝의 한 형태로 '잠긴 이미지 튜닝' (Locked-image Tuning, LiT)이라고 명명하였습니다. LiT는 사전 학습된 이미지 모델에서 새로운 작업에 대한 좋은 표현을 추출하도록 텍스트 모델을 교육하는 역할만 수행합니다. LiT 모델은 새로운 시각 작업, 예를 들어 이미지 분류나 검색 등의 제로샷(zero-shot) 전송 능력을 획득하게 됩니다. 제안된 LiT는 광범위하게 적용 가능하며, 여러 가지 사전 학습 방법(지도 및 비지도)과 다양한 아키텍처(ResNet, Vision Transformers, MLP-Mixer)에서 세 가지 다른 이미지-텍스트 데이터셋을 사용하여 안정적으로 작동합니다. 트랜스포머 기반의 사전 학습된 ViT-g/14 모델을 사용할 때, LiT 모델은 ImageNet 테스트 세트에서 85.2%의 제로샷 전송 정확도를 달성하였으며, 어려운 분포 외(out-of-distribution) ObjectNet 테스트 세트에서는 82.5%의 정확도를 기록하였습니다.