HyperAIHyperAI

Command Palette

Search for a command to run...

探索大规模多模态预训练的极限

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

摘要

我们提出构建通用多模态智能(omni-modal intelligence),使其能够理解任意模态并学习通用表征。具体而言,我们提出一种可扩展的预训练范式——多模态上下文(Multimodal Context, MiCo),该范式可在预训练过程中同时扩展模态数量、数据规模以及模型参数量。借助MiCo,预训练模型在多模态学习任务中展现出显著的涌现能力,相关能力在以下三类任务上进行了评估:i)涵盖10种不同模态的单模态感知基准任务;ii)25项跨模态理解任务,包括检索、问答与图像描述生成;iii)18项多模态大语言模型基准测试。我们的模型在各项任务中创下37项新的最先进(SOTA)性能记录。我们希望本研究能为通用多模态智能的发展提供有益推动。代码与模型已开源,详见:https://github.com/invictus717/MiCo


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供