CCMB: 대규모 중국어 크로스모달 벤치마크

대규모 데이터셋에서의 시각-언어 사전학습(Vision-Language Pre-training, VLP)은 다양한 후속 작업에서 최고의 성능을 보여주고 있다. 그러나 영어 코퍼스를 기반으로 한 풍부한 벤치마크와 대규모 사전학습 데이터셋이 존재하는 반면, 중국어 코퍼스를 기반으로 한 대규모 사전학습 데이터셋 및 후속 작업용 데이터셋은 여전히 거의 탐색되지 않은 상태이다. 본 연구에서는 연구 공동체를 위해 대규모 고품질의 중국어 크로스모달 벤치마크인 CCMB(Chinese Cross-Modal Benchmark)를 구축하였다. 이 벤치마크는 현재 공개된 가장 큰 사전학습 데이터셋인 Zero와 후속 작업을 위한 5개의 인간 주석이 달린 미세조정 데이터셋을 포함하고 있다. Zero는 2억 5천만 장의 이미지와 7억 5천만 개의 텍스트 설명을 쌍으로 포함하며, 이 중 5개의 미세조정 데이터셋 중 2개는 현재까지 중국어 크로스모달 후속 작업에서 가장 큰 규모를 자랑한다. CCMB와 함께, 우리는 강력한 시각-언어 표현을 학습하기 위해 사전 랭킹(pre-ranking) + 랭킹 전략을 적용한 VLP 프레임워크인 R2D2를 개발하였다. 또한, 목표 지도형 디스틸레이션(target-guided distillation)과 특징 지도형 디스틸레이션(feature-guided distillation)을 결합한 양방향 디스틸레이션 방법을 도입하여 학습 능력을 추가로 향상시켰다. Zero 데이터셋과 R2D2 VLP 프레임워크를 활용하여, 이미지-텍스트 검색, 이미지-텍스트 매칭, 이미지 캡션 생성, 텍스트-이미지 생성, 제로샷 이미지 분류 등 5개 주요 분야에 걸쳐 총 12개의 후속 작업 데이터셋에서 최신 기술(SOTA) 성능을 달성하였다. 관련 데이터셋, 모델, 코드는 https://github.com/yuxie11/R2D2 에서 공개되어 있다.