Command Palette

Search for a command to run...

20 天前

面向语言中心的多模态表征学习的扩展

Chenghao Xiao Hou Pong Chan Hao Zhang Weiwen Xu Mahani Aljunied Yu Rong

面向语言中心的多模态表征学习的扩展

摘要

近年来,基于多模态大语言模型(MLLM)并采用对比学习(CL)进行微调的多模态嵌入方法取得了令人瞩目的成果,但其性能优越性的内在机制仍缺乏深入探讨。本文指出,基于MLLM的方法之所以具有显著优势,关键在于生成式预训练过程中实现的隐式跨模态对齐:在共享表示空间中,语言解码器通过学习利用多模态信号,以生成单模态输出。通过对表示空间的各向异性和核相似性结构进行分析,我们实证验证了MLLM表示中确实存在潜在的对齐现象,这使得对比学习可作为轻量级的优化阶段。基于这一发现,我们提出一种以语言为中心的全模态嵌入框架,命名为LCO-Emb。在多种骨干网络和基准数据集上的大量实验表明,该方法在各类模态下均表现出卓越性能,达到当前最优水平。此外,我们揭示了一种“生成-表征缩放定律”(Generation-Representation Scaling Law, GRSL),表明通过对比学习优化所获得的表征能力,与MLLM的生成能力呈正相关。这表明,提升生成能力已成为优化表征质量的有效范式。我们进一步提供了GRSL的理论解释,形式化地建立了MLLM生成质量与其表征性能上限之间的联系,并在一项具有挑战性且资源稀缺的视觉-文档检索任务上进行了验证,结果表明,在对比学习之前持续进行生成式预训练,能够进一步释放模型嵌入能力的潜力。相关代码、模型及资源已开源,详见:https://github.com/LCO-Embedding/LCO-Embedding。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供