2 个月前

M2-编码器:通过大规模高效预训练推进双语图像-文本理解

Qingpei Guo; Furong Xu; Hanxiao Zhang; Wang Ren; Ziping Ma; Lin Ju; Jian Wang; Jingdong Chen; Ming Yang
M2-编码器:通过大规模高效预训练推进双语图像-文本理解
摘要

视觉-语言基础模型(如CLIP)已经彻底改变了人工智能领域。然而,支持多语言的视觉-语言模型(VLM),例如同时支持中文和英文的模型,由于大规模预训练数据集的相对稀缺而进展缓慢。为此,我们引入了一个全面的双语(中英)数据集BM-6B,包含超过60亿个图像-文本对,旨在增强多模态基础模型在两种语言中的图像理解能力。为了处理如此规模的数据集,我们提出了一种新的分组聚合方法来计算图像-文本对比损失,该方法显著减少了通信开销和GPU内存需求,使训练速度提高了60%。我们在BM-6B上预训练了一系列具有增强细粒度理解能力的双语图像-文本基础模型,这些模型被称为$M^2$-编码器(读作“M平方”),在两种语言的多模态检索和分类任务中均设立了新的基准。特别是我们的最大型$M^2$-编码器-10B模型,在零样本分类设置下,在ImageNet上的Top-1准确率达到了88.5%,在ImageNet-CN上的Top-1准确率达到了80.7%,分别超过了此前报告的最佳方法2.2%和21.1%。$M^2$-编码器系列代表了迄今为止最全面的双语图像-文本基础模型之一,因此我们将其提供给研究社区以供进一步探索和开发。

M2-编码器:通过大规模高效预训练推进双语图像-文本理解 | 最新论文 | HyperAI超神经