HyperAI超神经

统一多模态预训练中的新兴特性

Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, Guang Shi, Haoqi Fan
发布日期: 5/21/2025
统一多模态预训练中的新兴特性
摘要

将多模态理解和生成统一起来已经在前沿的专有系统中展现出令人印象深刻的能力。在本研究中,我们介绍了BAGEL,一个开源的基础模型,该模型原生支持多模态理解和生成。BAGEL是一个统一的、仅解码器模型,预训练数据来自大规模混合的文本、图像、视频和网络数据,总量达到万亿级令牌。当使用这种多样化的多模态混合数据进行扩展时,BAGEL在复杂的多模态推理方面表现出新兴能力。因此,它在标准基准测试中显著超越了其他开源的统一模型,在多模态生成和理解方面均表现优异,并展示了诸如自由形式图像操作、未来帧预测、3D操作和世界导航等高级多模态推理能力。为了促进多模态研究领域的进一步发展机会,我们分享了关键发现、预训练细节、数据创建协议,并向社区开放了我们的代码和检查点。项目页面位于https://bagel-ai.org/