Command Palette
Search for a command to run...
探索大规模多模态预训练的极限
探索大规模多模态预训练的极限
Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue
摘要
我们提出构建通用多模态智能(omni-modal intelligence),使其能够理解任意模态并学习通用表征。具体而言,我们提出一种可扩展的预训练范式——多模态上下文(Multimodal Context, MiCo),该范式可在预训练过程中同时扩展模态数量、数据规模以及模型参数量。借助MiCo,预训练模型在多模态学习任务中展现出显著的涌现能力,相关能力在以下三类任务上进行了评估:i)涵盖10种不同模态的单模态感知基准任务;ii)25项跨模态理解任务,包括检索、问答与图像描述生成;iii)18项多模态大语言模型基准测试。我们的模型在各项任务中创下37项新的最先进(SOTA)性能记录。我们希望本研究能为通用多模态智能的发展提供有益推动。代码与模型已开源,详见:https://github.com/invictus717/MiCo。