19일 전

CCMB: 대규모 중국어 크로스모달 벤치마크

Chunyu Xie, Heng Cai, Jincheng Li, Fanjing Kong, Xiaoyu Wu, Jianfei Song, Henrique Morimitsu, Lin Yao, Dexin Wang, Xiangzheng Zhang, Dawei Leng, Baochang Zhang, Xiangyang Ji, Yafeng Deng
CCMB: 대규모 중국어 크로스모달 벤치마크
초록

대규모 데이터셋에서의 시각-언어 사전학습(Vision-Language Pre-training, VLP)은 다양한 후속 작업에서 최고의 성능을 보여주고 있다. 그러나 영어 코퍼스를 기반으로 한 풍부한 벤치마크와 대규모 사전학습 데이터셋이 존재하는 반면, 중국어 코퍼스를 기반으로 한 대규모 사전학습 데이터셋 및 후속 작업용 데이터셋은 여전히 거의 탐색되지 않은 상태이다. 본 연구에서는 연구 공동체를 위해 대규모 고품질의 중국어 크로스모달 벤치마크인 CCMB(Chinese Cross-Modal Benchmark)를 구축하였다. 이 벤치마크는 현재 공개된 가장 큰 사전학습 데이터셋인 Zero와 후속 작업을 위한 5개의 인간 주석이 달린 미세조정 데이터셋을 포함하고 있다. Zero는 2억 5천만 장의 이미지와 7억 5천만 개의 텍스트 설명을 쌍으로 포함하며, 이 중 5개의 미세조정 데이터셋 중 2개는 현재까지 중국어 크로스모달 후속 작업에서 가장 큰 규모를 자랑한다. CCMB와 함께, 우리는 강력한 시각-언어 표현을 학습하기 위해 사전 랭킹(pre-ranking) + 랭킹 전략을 적용한 VLP 프레임워크인 R2D2를 개발하였다. 또한, 목표 지도형 디스틸레이션(target-guided distillation)과 특징 지도형 디스틸레이션(feature-guided distillation)을 결합한 양방향 디스틸레이션 방법을 도입하여 학습 능력을 추가로 향상시켰다. Zero 데이터셋과 R2D2 VLP 프레임워크를 활용하여, 이미지-텍스트 검색, 이미지-텍스트 매칭, 이미지 캡션 생성, 텍스트-이미지 생성, 제로샷 이미지 분류 등 5개 주요 분야에 걸쳐 총 12개의 후속 작업 데이터셋에서 최신 기술(SOTA) 성능을 달성하였다. 관련 데이터셋, 모델, 코드는 https://github.com/yuxie11/R2D2 에서 공개되어 있다.

CCMB: 대규모 중국어 크로스모달 벤치마크 | 최신 연구 논문 | HyperAI초신경