19 天前
CCMB:一个大规模中文跨模态基准
Chunyu Xie, Heng Cai, Jincheng Li, Fanjing Kong, Xiaoyu Wu, Jianfei Song, Henrique Morimitsu, Lin Yao, Dexin Wang, Xiangzheng Zhang, Dawei Leng, Baochang Zhang, Xiangyang Ji, Yafeng Deng

摘要
在大规模数据集上进行视觉-语言预训练(Vision-Language Pre-training, VLP)已在多种下游任务中展现出卓越性能。然而,与英文语料库下丰富的基准数据集相比,基于中文语料的大规模预训练数据集及下游任务数据集仍处于严重缺乏的状态。为此,本文构建了一个大规模高质量的中文跨模态基准数据集——CCMB(Chinese Cross-Modal Benchmark),旨在推动中文视觉-语言研究的发展。CCMB包含目前规模最大的公开预训练数据集Zero,以及五个由人工标注的细调数据集,用于支持下游任务。其中,Zero数据集包含2.5亿张图像与7.5亿条文本描述,且其包含的两个细调数据集目前也是中文跨模态下游任务中规模最大的公开数据集。与此同时,我们提出了一种名为R2D2的VLP框架,该框架采用“预排序+排序”(pre-ranking + ranking)策略,以学习强大的视觉-语言表示能力,并引入一种双向知识蒸馏方法(即目标引导蒸馏与特征引导蒸馏),进一步提升模型的学习性能。基于Zero数据集与R2D2框架,我们在涵盖图像-文本检索、图像-文本匹配、图像描述生成、文本到图像生成以及零样本图像分类五大类任务的十二个下游数据集上均取得了当前最优(SOTA)性能。相关数据集、模型与代码已开源,访问地址为:https://github.com/yuxie11/R2D2