HyperAI超神经

MMaDA:多模态大型扩散语言模型

一、教程简介

Build

MMaDA-8B-Base 是由普林斯顿大学、字节跳动 Seed 团队、北京大学和清华大学联合研发并于 2025 年 5 月 23 日的发布多模态扩散大语言模型。该模型是首个系统性探索扩散架构作为多模态基础范式的统一模型,旨在通过文本推理、多模态理解和图像生成的深度融合,实现跨模态任务的通用智能能力。相关论文成果为「MMaDA: Multimodal Large Diffusion Language Models」。

该教程算力资源采用单卡 A6000,本教程部署的模型为 MMaDA-8B-Base 。提供 Text Generation 、 Multimodal Understanding 和 Text-to-Image Generation 三个示例供测试。

二、效果展示

MMaDA decoding demo

MMaDA 的解码演示。这个视频展示了如何使用扩散基础模型生成文本和图像。
「文本生成」部分使用半自回归采样方法,而「多模态生成」部分采用非自回归扩散去噪。

三、运行步骤

1. 启动容器

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

2. 使用步骤

1. Text Generation

具体参数:

  • Prompt:这里可以输入文本文字。
  • Generation Length:生成 tokens 的数量。
  • Total Sampling Steps:必须能被(gen_length / block_length)整除。
  • Block Length:gen_length 必须能被这个数整除。
  • Remasking Strategy:重新掩码策略。
  • CFG Scale:无分类器指南。 0 禁用它。
  • Temperature:通过 Gumbel 噪声控制随机性。 0 是确定性的。

结果 

2. Multimodal Understanding

具体参数:

  • Prompt:这里可以输入文本文字。
  • Generation Length:生成 tokens 的数量。
  • Total Sampling Steps:必须能被(gen_length / block_length)整除。
  • Block Length:gen_length 必须能被这个数整除。
  • Remasking Strategy:重新掩码策略。
  • CFG Scale:无分类器指南。 0 禁用它。
  • Temperature:通过 Gumbel 噪声控制随机性。 0 是确定性的。
  • Image:图片。

结果 

3. Text-to-Image Generation

具体参数:

  • Prompt:这里可以输入文本文字。
  • Total Sampling Steps:必须能被(gen_length / block_length)整除。
  • Guidance Scale:无分类器指南。 0 禁用它。
  • Scheduler:
    • cosine:余弦相似度计算句子对的相似性,优化嵌入向量。
    • sigmoid:多标签分类。
    • linear:线性层将图像块嵌入向量映射到更高维度进行注意力计算。

结果 

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

感谢 Github 用户 SuperYang  对本教程的部署。本项目引用信息如下:

@article{yang2025mmada,
  title={MMaDA: Multimodal Large Diffusion Language Models},
  author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},
  journal={arXiv preprint arXiv:2505.15809},
  year={2025}
}