18일 전

중국어 CLIP: 중국어 기반 대조형 시각-언어 사전학습

An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou

초록

CLIP(Radford 등, 2021)의 놀라운 성공은 시각-언어 사전학습을 위한 대조 학습 연구 및 응용을 촉진시켰다. 본 연구에서는 주로 공개된 데이터셋에서 수집한 이미지-텍스트 쌍을 기반으로 한 대규모 중국어 이미지-텍스트 데이터셋을 구축하였으며, 새로운 데이터셋을 기반으로 중국어 CLIP 모델을 사전학습하였다. 또한 파라미터 수가 77백만에서 9억 5800만 사이인 다양한 크기의 5종의 중국어 CLIP 모델을 개발하였다. 더불어, 모델의 이미지 인코더를 고정한 상태에서 초기 학습을 수행한 후, 모든 파라미터를 최적화하는 두 단계 사전학습 방법을 제안하여 모델 성능을 향상시켰다. 광범위한 실험 결과, 중국어 CLIP 모델은 제로샷 학습 및 파인튜닝 설정에서 MUGE, Flickr30K-CN, COCO-CN에서 최신 기준(SOTA) 성능을 달성함을 입증하였으며, ELEVATER 벤치마크(Li 등, 2022) 평가 기준에 따라 제로샷 이미지 분류에서도 경쟁력 있는 성능을 보였다. 본 연구에서 개발한 코드, 모델 및 데모는 https://github.com/OFA-Sys/Chinese-CLIP 에 공개하였다.