Command Palette
Search for a command to run...

摘要
我们提出Emu3.5,一个大规模多模态世界模型,能够原生地在视觉与语言模态之间预测下一状态。Emu3.5在包含超过10万亿个标记的视觉-语言交错数据语料上,通过统一的下一标记预测目标进行端到端预训练,该语料主要来源于互联网视频的连续帧与字幕。该模型天然支持交错的视觉-语言输入,并生成交错的视觉-语言输出。为进一步提升多模态推理与生成能力,Emu3.5还通过大规模强化学习进行后训练。为提升推理效率,我们提出离散扩散适配(Discrete Diffusion Adaptation, DiDA),将逐标记解码转换为双向并行预测,使单图像推理速度提升约20倍,且不牺牲性能。Emu3.5展现出强大的原生多模态能力,包括长时程视觉-语言生成、任意模态到图像生成(X2I)以及复杂文本密集型图像生成。此外,它还具备可泛化的世界建模能力,能够在多样化场景与任务中实现时空一致的世界探索与开放世界的具身操作。相较之下,Emu3.5在图像生成与编辑任务上的表现与Gemini 2.5 Flash Image(Nano Banana)相当,并在一系列交错生成任务中展现出更优性能。我们已在 https://github.com/baaivision/Emu3.5 开源Emu3.5,以支持社区研究。