5 小时前

摘要

尽管近期的多模态大语言模型（MLLMs）取得了显著进展，但其主干架构仍主要依赖传统的自回归机制，这为探索更高效、更有效的架构设计留下了广阔空间。与此同时，近期研究已成功将离散扩散模型应用于视觉理解、图像生成等多个领域，展现出其作为多模态系统潜在主干架构的巨大前景。受上述开创性研究的启发，我们提出了 Omni-Diffusion——首个完全基于掩码离散扩散模型构建的“任意到任意”（any-to-any）多模态语言模型，实现了文本、语音和图像在理解与生成任务上的统一。Omni-Diffusion 采用统一的掩码离散扩散模型，直接建模离散多模态 token 的联合分布。该方法不仅支持双模态任务，亦能应对涉及多种模态的复杂场景。在多样化的基准测试中，本方法的表现优于或与现有处理两种及以上模态的多模态系统相当，充分彰显了扩散模型在驱动下一代多模态基础模型发展方面的巨大潜力。项目主页：https://omni-diffusion.github.io。

一句话总结

南京大学、腾讯优图实验室和 CASIA 的研究人员推出了 Omni-Diffusion，这是首个基于掩码离散扩散构建的任意到任意（any-to-any）多模态模型。与自回归骨干网络不同，该统一架构能够捕捉文本、语音和图像之间的联合分布，在复杂的多模态理解和生成任务中实现了最先进的性能。

主要贡献

当前的多模态系统严重依赖自回归架构，因此迫切需要高效的替代方案，以统一文本、语音和图像的理解与生成。
Omni-Diffusion 引入了首个完全基于掩码离散扩散框架构建的任意到任意多模态模型，直接在共享语义空间中捕捉多模态标记的联合分布。
在多样化基准测试上的广泛实验表明，该方法在支持复杂多模态场景的同时，实现了与现有自回归系统相当甚至更优的性能。

引言

多模态智能目前严重依赖自回归大型语言模型，这限制了架构的多样性，并且通常需要独立的组件来处理文本、图像和语音等不同数据类型的生成。虽然离散扩散模型在单个领域已展现出潜力，但先前的工作难以将它们统一为一个单一骨干网络，以原生支持任意到任意多模态任务，而无需依赖辅助解码器或仅基于文本的基础模型。作者推出了 Omni-Diffusion，这是首个完全基于掩码离散扩散框架构建的任意到任意多模态模型，用于学习多模态标记的联合分布。他们利用三阶段渐进式训练流程以及专门的推理技术（如衰减尾部填充掩码和位置惩罚），在实现文本、语音和图像统一理解与生成的同时，达到了与现有自回归系统相当甚至更优的性能。

方法

Omni-Diffusion 模型被设计为一个统一的概率框架，在多模态离散标记的联合分布上运行。作者不依赖额外的输出模型将大型语言模型的文本特征投影到生成的多模态数据中，而是直接对内在统一的多模态离散表示空间进行建模。这种方法使得单一架构能够有效地理解和生成文本、语音和图像模态的数据。

模型架构与公式 系统的核心是一个基于预训练 Dream-7B 语言模型构建的掩码离散扩散模型。为了适应多模态输入，词汇表被扩展以包含 16,384 个语音标记和 8,192 个图像标记。该架构为每种模态采用不同的分词器。对于图像，作者利用 MAGVIT-v2，将图像压缩为离散标记，下采样因子为 16，码本大小为 8,192。对于语音，使用 SenseVoiceSmall 进行编码，而 GLM-4-Voice 解码器负责语音生成和分词，速率为 12.5 Hz，码本大小为 16,384。

如下图所示：

在该架构中，文本、图像和语音标记被特殊的开始和结束标记包裹，形成统一序列 $x_{0} \in \mathbb{R}^{L}$ 。在训练期间，模型通过以时间步 $t$ 导出的比例随机将标记替换为特殊掩码标记来破坏该序列。随后，模型预测干净的标记序列 $\hat{x}_{0}=p_{\theta}(x_{0}|x_{t})$ 。训练目标是在仅掩码位置上计算的交叉熵损失：

L = - \mathbb { E } _ { t , q ( x _ { t } | x _ { 0 } ) } \left[ \sum _ { i = 1 } ^ { L } \mathbb { I } \left[ x _ { t } ^ { i } = [ \mathrm { M A S K } ] \right] \log p _ { \theta } ( x _ { 0 } ^ { i } | x _ { t } ) \right]

该设计对所有多模态标记使用全注意力机制，在核心训练过程中将它们视为序列中的统一元素，而不进行特定模态的优化。

训练策略 为了确保在不同数据分布下的训练稳定性，作者实施了三阶段渐进式训练流程。该策略逐步将模型的能力从视觉 - 语言对齐扩展到全多模态交互。

如下图所示：

第一阶段专注于视觉 - 语言预对齐，在文本到图像和图像描述任务上优化模型，使视觉模态与语言模型的语义空间对齐。第二阶段为语音 - 视觉 - 语言联合对齐，在保留视觉 - 文本数据集的同时，引入自动语音识别和文本转语音数据以促进语音 - 文本对齐。最后阶段在构建的语音驱动视觉交互（SDVI）数据集上优化模型，该数据集包含口语视觉问答和语音到图像生成任务。此阶段进一步增强了所有模态之间的统一对齐。此外，采用衰减尾部填充掩码策略，以防止在变长生成过程中对填充标记过拟合。

整体框架 生成的系统作为一个能够处理多样化任务的任意到任意多模态框架运行。

如下图所示：