2달 전

EVA-CLIP-18B: CLIP을 180억 개의 매개변수로 확장

Quan Sun; Jinsheng Wang; Qiying Yu; Yufeng Cui; Fan Zhang; Xiaosong Zhang; Xinlong Wang
EVA-CLIP-18B: CLIP을 180억 개의 매개변수로 확장
초록

대조적 언어-이미지 사전학습(CLIP)의 확장은 시각 및 다중모달 모델을 강화하는 데 중요합니다. 우리는 현재까지 가장 크고 강력한 오픈 소스 CLIP 모델인 180억 개의 매개변수를 가진 EVA-CLIP-18B를 소개합니다. EVA-CLIP-18B는 단 60억 개의 훈련 샘플만으로도 27개의 널리 인정받는 이미지 분류 벤치마크에서 평균 80.7%의 제로샷 상위 1 정확도를 달성하여, 그 전신인 EVA-CLIP(50억 개 매개변수)와 다른 오픈 소스 CLIP 모델들을 크게 능가하였습니다. 특히, LAION-2B 및 COYO-700M에서 제공된 20억 개의 이미지-텍스트 쌍으로 구성된 일정한 훈련 데이터셋을 유지하면서도 EVA-CLIP의 모델 크기 확장에 따른 성능 향상이 일관되게 관찰되었습니다. 이 데이터셋은 공개되어 있으며, 다른 최신 CLIP 모델들에서 사용되는 내부 데이터셋(예: DFN-5B, WebLI-10B)보다 훨씬 작습니다. EVA-CLIP-18B는 EVA 스타일의 약한-to-강한 시각 모델 확장 잠재력을 보여줍니다. 우리의 모델 가중치를 공개함으로써, 우리는 앞으로의 시각 및 다중모달 기초 모델 연구를 촉진하기를 바랍니다.

EVA-CLIP-18B: CLIP을 180억 개의 매개변수로 확장 | 최신 연구 논문 | HyperAI초신경