MMaDA:多模态大扩散语言模型
Yang, Ling ; Tian, Ye ; Li, Bowen ; Zhang, Xinchen ; Shen, Ke ; Tong, Yunhai ; Wang, Mengdi
发布日期: 5/22/2025

摘要
我们介绍了MMaDA,一种新型的多模态扩散基础模型,旨在在文本推理、多模态理解及文本到图像生成等多个领域实现卓越性能。该方法具有三个关键创新点:(i)MMaDA采用了一种统一的扩散架构,具备共享的概率公式和模态无关的设计,消除了对特定模态组件的需求。这种架构确保了不同数据类型之间的无缝集成和处理。(ii)我们实施了一种混合长链思维(CoT)微调策略,该策略在各模态间策划了一个统一的CoT格式。通过对文本和视觉领域的推理过程进行对齐,这一策略有助于最终强化学习(RL)阶段的冷启动训练,从而增强模型从一开始就处理复杂任务的能力。(iii)我们提出了UniGRPO,一种专为扩散基础模型设计的统一基于策略梯度的RL算法。利用多样化的奖励建模,UniGRPO统一了推理和生成任务的后训练过程,确保性能的一致提升。实验结果表明,MMaDA-8B作为统一的多模态基础模型表现出强大的泛化能力。它在文本推理方面超越了强大的模型如LLaMA-3-7B和Qwen2-7B,在多模态理解方面优于Show-o和SEED-X,在文本到图像生成方面则胜过SDXL和Janus。这些成就突显了MMaDA在弥合预训练与后训练之间差距方面的有效性,为未来的科研与开发提供了一个全面的框架。我们的代码和训练模型已开源,地址如下:https://github.com/Gen-Verse/MMaDA