HyperAIHyperAI

Command Palette

Search for a command to run...

三模态掩码扩散模型的设计空间

摘要

离散扩散模型已成为自回归语言模型的有力替代方案。近期研究通过初始化并微调一个基础的单模态模型,实现了双模态生成。与以往方法不同,本文首次提出一种从零开始在文本、图文及音文数据上预训练的三模态掩码扩散模型。我们系统地分析了多模态扩展规律、模态混合比例、噪声调度策略以及批量大小对模型性能的影响,并提供了优化的推理采样默认配置。我们的批量大小分析提出了一种基于随机微分方程(SDE)的新重参数化方法,该方法消除了近期研究中对最优批量大小进行调参的必要性。该重参数化将物理批量大小(通常根据计算资源限制选择,如GPU饱和度、FLOP效率、实际运行时间)与逻辑批量大小(用于平衡随机优化过程中的梯度方差)解耦。最后,我们在6.4万亿个标记(tokens)的数据上预训练了一个初步的30亿参数三模态模型,验证了统一架构的有效性,并在文本生成、文生图以及文生音任务中均取得了优异表现。本研究是迄今规模最大的系统性公开多模态离散扩散模型研究,为多模态扩展行为提供了深入洞察。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供