HyperAI超神经
19 hours ago

MoCa:模态感知的持续预训练生成更优的双向多模态嵌入

Haonan Chen, Hong Liu, Yuping Luo, Liang Wang, Nan Yang, Furu Wei, Zhicheng Dou
MoCa:模态感知的持续预训练生成更优的双向多模态嵌入
摘要

基于因果视觉语言模型(VLM)的多模态嵌入模型在各种任务中展现出巨大潜力。然而,当前的方法面临三个主要限制:在嵌入任务中使用因果注意力机制的VLM骨干网络效果不佳;由于对比学习依赖高质量的标注配对数据而产生的可扩展性问题;以及训练目标和数据的多样性不足。为了解决这些问题,我们提出了一种名为MoCa的两阶段框架,用于将预训练的VLM转换为有效的双向多模态嵌入模型。第一阶段称为模态感知持续预训练(Modality-aware Continual Pre-training),引入了一个联合重建目标,该目标同时对交错的文本和图像输入进行去噪,增强了双向上下文感知推理能力。第二阶段称为异质对比微调(Heterogeneous Contrastive Fine-tuning),利用了超出简单图像-标题对的多样化、语义丰富的多模态数据,以提高泛化能力和对齐效果。我们的方法通过持续预训练引入双向注意力机制,通过联合重建目标有效地利用大规模未标注数据集,并通过多样化的多模态数据增强表示鲁棒性,从而解决了上述限制。实验结果表明,MoCa在MMEB和ViDoRe-v2基准测试中始终提升了性能,达到了新的最先进水平,并且在MMEB上表现出强大的可扩展性,无论是在模型规模还是训练数据方面。