HyperAIHyperAI

Command Palette

Search for a command to run...

Omni-Diffusion:基于掩蔽离散扩散的统一多模态理解与生成

Lijiang Li Zuwei Long Yunhang Shen Heting Gao Haoyu Cao Xing Sun Caifeng Shan Ran He Chaoyou Fu

摘要

尽管近期的多模态大语言模型(MLLMs)取得了显著进展,但其主干架构仍主要依赖传统的自回归机制,这为探索更高效、更有效的架构设计留下了广阔空间。与此同时,近期研究已成功将离散扩散模型应用于视觉理解、图像生成等多个领域,展现出其作为多模态系统潜在主干架构的巨大前景。受上述开创性研究的启发,我们提出了 Omni-Diffusion——首个完全基于掩码离散扩散模型构建的“任意到任意”(any-to-any)多模态语言模型,实现了文本、语音和图像在理解与生成任务上的统一。Omni-Diffusion 采用统一的掩码离散扩散模型,直接建模离散多模态 token 的联合分布。该方法不仅支持双模态任务,亦能应对涉及多种模态的复杂场景。在多样化的基准测试中,本方法的表现优于或与现有处理两种及以上模态的多模态系统相当,充分彰显了扩散模型在驱动下一代多模态基础模型发展方面的巨大潜力。项目主页:https://omni-diffusion.github.io

一句话总结

南京大学、腾讯优图实验室和 CASIA 的研究人员推出了 Omni-Diffusion,这是首个基于掩码离散扩散构建的任意到任意(any-to-any)多模态模型。与自回归骨干网络不同,该统一架构能够捕捉文本、语音和图像之间的联合分布,在复杂的多模态理解和生成任务中实现了最先进的性能。

主要贡献

  • 当前的多模态系统严重依赖自回归架构,因此迫切需要高效的替代方案,以统一文本、语音和图像的理解与生成。
  • Omni-Diffusion 引入了首个完全基于掩码离散扩散框架构建的任意到任意多模态模型,直接在共享语义空间中捕捉多模态标记的联合分布。
  • 在多样化基准测试上的广泛实验表明,该方法在支持复杂多模态场景的同时,实现了与现有自回归系统相当甚至更优的性能。

引言

多模态智能目前严重依赖自回归大型语言模型,这限制了架构的多样性,并且通常需要独立的组件来处理文本、图像和语音等不同数据类型的生成。虽然离散扩散模型在单个领域已展现出潜力,但先前的工作难以将它们统一为一个单一骨干网络,以原生支持任意到任意多模态任务,而无需依赖辅助解码器或仅基于文本的基础模型。作者推出了 Omni-Diffusion,这是首个完全基于掩码离散扩散框架构建的任意到任意多模态模型,用于学习多模态标记的联合分布。他们利用三阶段渐进式训练流程以及专门的推理技术(如衰减尾部填充掩码和位置惩罚),在实现文本、语音和图像统一理解与生成的同时,达到了与现有自回归系统相当甚至更优的性能。

方法

Omni-Diffusion 模型被设计为一个统一的概率框架,在多模态离散标记的联合分布上运行。作者不依赖额外的输出模型将大型语言模型的文本特征投影到生成的多模态数据中,而是直接对内在统一的多模态离散表示空间进行建模。这种方法使得单一架构能够有效地理解和生成文本、语音和图像模态的数据。

模型架构与公式 系统的核心是一个基于预训练 Dream-7B 语言模型构建的掩码离散扩散模型。为了适应多模态输入,词汇表被扩展以包含 16,384 个语音标记和 8,192 个图像标记。该架构为每种模态采用不同的分词器。对于图像,作者利用 MAGVIT-v2,将图像压缩为离散标记,下采样因子为 16,码本大小为 8,192。对于语音,使用 SenseVoiceSmall 进行编码,而 GLM-4-Voice 解码器负责语音生成和分词,速率为 12.5 Hz,码本大小为 16,384。

如下图所示:

在该架构中,文本、图像和语音标记被特殊的开始和结束标记包裹,形成统一序列 x0RLx_{0} \in \mathbb{R}^{L}x0RL。在训练期间,模型通过以时间步 ttt 导出的比例随机将标记替换为特殊掩码标记来破坏该序列。随后,模型预测干净的标记序列 x^0=pθ(x0xt)\hat{x}_{0}=p_{\theta}(x_{0}|x_{t})x^0=pθ(x0xt)。训练目标是在仅掩码位置上计算的交叉熵损失:

L=Et,q(xtx0)[i=1LI[xti=[MASK]]logpθ(x0ixt)]L = - \mathbb { E } _ { t , q ( x _ { t } | x _ { 0 } ) } \left[ \sum _ { i = 1 } ^ { L } \mathbb { I } \left[ x _ { t } ^ { i } = [ \mathrm { M A S K } ] \right] \log p _ { \theta } ( x _ { 0 } ^ { i } | x _ { t } ) \right]L=Et,q(xtx0)[i=1LI[xti=[MASK]]logpθ(x0ixt)]

该设计对所有多模态标记使用全注意力机制,在核心训练过程中将它们视为序列中的统一元素,而不进行特定模态的优化。

训练策略 为了确保在不同数据分布下的训练稳定性,作者实施了三阶段渐进式训练流程。该策略逐步将模型的能力从视觉 - 语言对齐扩展到全多模态交互。

如下图所示:

第一阶段专注于视觉 - 语言预对齐,在文本到图像和图像描述任务上优化模型,使视觉模态与语言模型的语义空间对齐。第二阶段为语音 - 视觉 - 语言联合对齐,在保留视觉 - 文本数据集的同时,引入自动语音识别和文本转语音数据以促进语音 - 文本对齐。最后阶段在构建的语音驱动视觉交互(SDVI)数据集上优化模型,该数据集包含口语视觉问答和语音到图像生成任务。此阶段进一步增强了所有模态之间的统一对齐。此外,采用衰减尾部填充掩码策略,以防止在变长生成过程中对填充标记过拟合。

整体框架 生成的系统作为一个能够处理多样化任务的任意到任意多模态框架运行。

如下图所示:

该框架支持语音任务(如 ASR 和 TTS)、视觉任务(如描述和视觉问答)以及复杂的语音驱动视觉交互任务,包括语音到图像生成和口语视觉理解。通过统一这些模态,该模型实现了跨文本、图像和语音领域的高效理解与生成。

实验

  • 主要基准测试评估了语音识别、文本转语音、视觉问答和文本到图像生成,证实该模型在理解和生成任务中均达到或超过了专用及任意到任意基线模型。
  • 语音到图像实验验证了强大的跨模态对齐能力,表明无论以文本还是合成语音为条件,模型都能生成一致的视觉输出。
  • 定性示例展示了模型生成具有精细细节的多样化高质量图像的能力,以及利用其掩码标记预测机制在不进行额外微调的情况下执行图像修复的能力。
  • 采样效率测试表明,与自回归方法相比,该模型在显著减少推理步数的同时保持了高生成质量,突显了离散扩散的速度优势。
  • 总体而言,结果确立了该模型作为多模态 AI 统一基础模型的地位,能够以高保真度和高效率处理多样化的模态。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供