Command Palette
Search for a command to run...
三模态掩码扩散模型的设计空间
三模态掩码扩散模型的设计空间
摘要
离散扩散模型已成为自回归语言模型的有力替代方案。近期研究通过初始化并微调一个基础的单模态模型,实现了双模态生成。与以往方法不同,本文首次提出一种从零开始在文本、图文及音文数据上预训练的三模态掩码扩散模型。我们系统地分析了多模态扩展规律、模态混合比例、噪声调度策略以及批量大小对模型性能的影响,并提供了优化的推理采样默认配置。我们的批量大小分析提出了一种基于随机微分方程(SDE)的新重参数化方法,该方法消除了近期研究中对最优批量大小进行调参的必要性。该重参数化将物理批量大小(通常根据计算资源限制选择,如GPU饱和度、FLOP效率、实际运行时间)与逻辑批量大小(用于平衡随机优化过程中的梯度方差)解耦。最后,我们在6.4万亿个标记(tokens)的数据上预训练了一个初步的30亿参数三模态模型,验证了统一架构的有效性,并在文本生成、文生图以及文生音任务中均取得了优异表现。本研究是迄今规模最大的系统性公开多模态离散扩散模型研究,为多模态扩展行为提供了深入洞察。