
摘要
多模态检索在实践中日益受到关注。然而,现有的检索模型大多以文本为中心,缺乏处理视觉信息的能力。尽管已有如CLIP等视觉-语言模型,但当前方法在表征纯文本或纯图像数据方面仍存在显著局限。本文提出一种全新的嵌入模型VISTA,用于实现通用的多模态检索。本工作在技术上做出三项主要贡献:第一,我们设计了一种灵活的架构,通过引入视觉标记嵌入(visual token embeddings),将强大的文本编码器扩展为具备图像理解能力;第二,我们提出了两种高质量数据生成策略,能够生成丰富的图文组合数据,有效支持嵌入模型的训练;第三,我们提出一种多阶段训练算法:首先利用大量弱标注数据,将视觉标记嵌入与文本编码器进行对齐;随后,基于生成的图文组合数据,进一步构建模型的多模态表征能力。实验结果表明,VISTA在多种多模态检索任务中,无论是在零样本(zero-shot)还是监督学习设置下,均取得了卓越的性能表现。我们的模型、训练数据及源代码已公开,详见:https://github.com/FlagOpen/FlagEmbedding。