17 天前

悟空:一个1亿规模的中文跨模态预训练基准

Jiaxi Gu, Xiaojun Meng, Guansong Lu, Lu Hou, Minzhe Niu, Xiaodan Liang, Lewei Yao, Runhui Huang, Wei Zhang, Xin Jiang, Chunjing Xu, Hang Xu
悟空:一个1亿规模的中文跨模态预训练基准
摘要

视觉-语言预训练(Vision-Language Pre-training, VLP)模型在各类下游任务中展现出卓越性能。其成功在很大程度上依赖于大规模预训练跨模态数据集的支撑。然而,中文领域缺乏大规模数据集与基准评测体系,严重制约了中文VLP模型的发展以及更广泛的多语言应用。为此,本文发布了一个大规模中文跨模态数据集——“悟空”(Wukong),该数据集包含从网络收集的1亿条中文图文对,旨在为不同多模态预训练方法提供统一的评测基准,推动中文VLP研究与社区发展。此外,我们基于多种图像编码器(ViT-B/ViT-L/Swin-T)发布了多个预训练模型,并引入了多项先进的预训练技术,包括锁定图像的文本调优(locked-image text tuning)、对比学习中的词元级相似性建模,以及减少词元间交互的优化策略。为全面评估模型性能,本文还构建了一组涵盖多个下游任务的基准测试,其中包括一个目前规模最大的人工验证图文测试数据集。实验结果表明,“悟空”数据集在多种跨模态学习方法中均展现出良好的预训练潜力,具备成为中文领域重要基准数据集的前景。在10个数据集上的零样本图像分类任务中,$Wukong_{ViT-L}$ 模型平均准确率达到73.03%;在图像-文本检索任务中,于AIC-ICC数据集上实现了71.6%的平均召回率,较WenLan 2.0提升12.9%。同时,我们的Wukong系列模型在多个下游任务上与其他变体进行了对比,涵盖Flickr8K-CN、Flickr-30K-CN、COCO-CN等主流中文图文数据集。更多详细信息请访问:https://wukong-dataset.github.io/wukong-dataset/

悟空:一个1亿规模的中文跨模态预训练基准 | 最新论文 | HyperAI超神经