우공: 1억 규모의 대규모 중국어 크로스모달 사전학습 벤치마크

시각-언어 사전학습(Vision-Language Pre-training, VLP) 모델은 다양한 후속 작업에서 뛰어난 성능을 보여주고 있다. 이러한 성공은 사전학습을 위한 크로스모달 데이터셋의 규모에 크게 의존한다. 그러나 중국어 분야에서는 대규모 데이터셋과 벤치마크의 부족으로 인해 중국어 VLP 모델의 개발 및 다국어 응용의 확장이 제한되고 있다. 본 연구에서는 웹에서 수집한 총 1억 개의 중국어 이미지-텍스트 쌍을 포함하는 대규모 중국어 크로스모달 데이터셋인 '우공(Wukong)'을 공개한다. 우공은 다양한 다중모달 사전학습 방법을 평가할 수 있는 벤치마크를 제공함으로써 VLP 연구 및 커뮤니티 발전을 촉진하는 것을 목적으로 한다. 또한, 다양한 이미지 인코더(ViT-B/ViT-L/SwinT)를 사용해 사전학습한 모델군을 함께 공개하며, 잠금된 이미지 텍스트 튜닝(lockedImage-text tuning), 대조학습에서의 토큰별 유사도, 감소된 토큰 상호작용 등의 고급 사전학습 기법을 VLP에 적용하였다. 다양한 후속 작업을 위한 광범위한 실험과 함께, 새로운 최대 규모의 인간 검증 이미지-텍스트 테스트 데이터셋을 포함한 벤치마크도 제공한다. 실험 결과, 우공은 다양한 크로스모달 학습 방법에 대한 유망한 중국어 사전학습 데이터셋 및 벤치마크로 활용될 수 있음을 입증하였다. 10개의 데이터셋에서의 제로샷 이미지 분류 작업에서 $Wukong_{ViT-L}$은 평균 정확도 73.03%를 달성하였으며, 이미지-텍스트 검색 작업에서는 AIC-ICC에서 평균 리콜률 71.6%를 기록하여 웬란 2.0(WenLan 2.0) 대비 12.9% 높은 성능을 보였다. 또한, 우공 모델은 Flickr8K-CN, Flickr-30K-CN, COCO-CN 등 다양한 데이터셋에서 다른 변형 모델들과 비교하여 후속 작업에서 벤치마크로 평가되었다. 자세한 정보는 다음 웹사이트를 참조할 수 있다: https://wukong-dataset.github.io/wukong-dataset/.