18 天前
中文CLIP:面向中文的对比视觉-语言预训练
An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou

摘要
CLIP(Radford 等,2021)的巨大成功推动了视觉-语言对比学习在预训练领域的研究与应用。在本工作中,我们构建了一个大规模的中英文图像-文本配对数据集,其中大部分数据来源于公开可获取的数据集,并基于该新数据集对中文CLIP模型进行了预训练。我们开发了五种不同规模的中文CLIP模型,参数量范围从7700万到9.58亿不等。此外,我们提出了一种两阶段预训练方法:首先在图像编码器冻结的条件下进行训练,随后对所有模型参数进行联合优化,以进一步提升模型性能。大量实验结果表明,中文CLIP在零样本学习(zero-shot learning)和微调(fine-tuning)两种设置下,均在MUGE、Flickr30K-CN和COCO-CN基准上取得了当前最优(state-of-the-art)的性能表现;同时,在ELEVATER基准(Li 等,2022)上的零样本图像分类任务中也展现出具有竞争力的性能。相关代码、模型及演示已开源,详见:https://github.com/OFA-Sys/Chinese-CLIP