17일 전

우공: 1억 규모의 대규모 중국어 크로스모달 사전학습 벤치마크

Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Xiaodan Liang, Lewei Yao, Runhui Huang, Wei Zhang, Xin Jiang, Chunjing Xu, Hang Xu
우공: 1억 규모의 대규모 중국어 크로스모달 사전학습 벤치마크
초록

시각-언어 사전학습(Vision-Language Pre-training, VLP) 모델은 다양한 후속 작업에서 뛰어난 성능을 보여주고 있다. 이러한 성공은 사전학습을 위한 크로스모달 데이터셋의 규모에 크게 의존한다. 그러나 중국어 분야에서는 대규모 데이터셋과 벤치마크의 부족으로 인해 중국어 VLP 모델의 개발 및 다국어 응용의 확장이 제한되고 있다. 본 연구에서는 웹에서 수집한 총 1억 개의 중국어 이미지-텍스트 쌍을 포함하는 대규모 중국어 크로스모달 데이터셋인 '우공(Wukong)'을 공개한다. 우공은 다양한 다중모달 사전학습 방법을 평가할 수 있는 벤치마크를 제공함으로써 VLP 연구 및 커뮤니티 발전을 촉진하는 것을 목적으로 한다. 또한, 다양한 이미지 인코더(ViT-B/ViT-L/SwinT)를 사용해 사전학습한 모델군을 함께 공개하며, 잠금된 이미지 텍스트 튜닝(lockedImage-text tuning), 대조학습에서의 토큰별 유사도, 감소된 토큰 상호작용 등의 고급 사전학습 기법을 VLP에 적용하였다. 다양한 후속 작업을 위한 광범위한 실험과 함께, 새로운 최대 규모의 인간 검증 이미지-텍스트 테스트 데이터셋을 포함한 벤치마크도 제공한다. 실험 결과, 우공은 다양한 크로스모달 학습 방법에 대한 유망한 중국어 사전학습 데이터셋 및 벤치마크로 활용될 수 있음을 입증하였다. 10개의 데이터셋에서의 제로샷 이미지 분류 작업에서 $Wukong_{ViT-L}$은 평균 정확도 73.03%를 달성하였으며, 이미지-텍스트 검색 작업에서는 AIC-ICC에서 평균 리콜률 71.6%를 기록하여 웬란 2.0(WenLan 2.0) 대비 12.9% 높은 성능을 보였다. 또한, 우공 모델은 Flickr8K-CN, Flickr-30K-CN, COCO-CN 등 다양한 데이터셋에서 다른 변형 모델들과 비교하여 후속 작업에서 벤치마크로 평가되었다. 자세한 정보는 다음 웹사이트를 참조할 수 있다: https://wukong-dataset.github.io/wukong-dataset/.