2달 전
EVA-CLIP: 대규모 CLIP 훈련을 위한 개선된 기술
Quan Sun; Yuxin Fang; Ledell Wu; Xinlong Wang; Yue Cao

초록
대조적 언어-이미지 사전 학습(Contrastive Language-Image Pre-training, CLIP)은 다양한 시나리오에서의 잠재력을 인정받아 점점 더 많은 주목을 받고 있습니다. 본 논문에서는 CLIP 학습의 효율성과 효과성을 크게 향상시키는 일련의 모델인 EVA-CLIP을 제안합니다. 우리의 접근 방식은 표현 학습, 최적화, 증강에 대한 새로운 기술을 통합하여, 동일한 매개변수 수를 가진 이전 CLIP 모델보다 훨씬 적은 학습 비용으로 우수한 성능을 달성할 수 있도록 합니다. 특히, 가장 큰 50억 개 매개변수를 가진 EVA-02-CLIP-E/14+는 단지 90억 개의 샘플만 보고도 ImageNet-1K val에서 82.0%의 제로샷 상위 1 정확도를 달성하였습니다. 더 작은 EVA-02-CLIP-L/14+는 4억 3천만 개의 매개변수와 60억 개의 샘플만으로 ImageNet-1K val에서 80.4%의 제로샷 상위 1 정확도를 달성하였습니다. 오픈 액세스와 오픈 리서치를 촉진하기 위해, 우리는 EVA-CLIP 전체 패키지를 커뮤니티에 공개합니다: https://github.com/baaivision/EVA/tree/master/EVA-CLIP.