2 天前

统一多模态

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

摘要

离散扩散模型已成为自回归语言模型的有力替代方案。近期研究通过初始化并微调一个基础的单模态模型，实现了双模态生成。与以往方法不同，本文首次提出一种从零开始在文本、图文及音文数据上预训练的三模态掩码扩散模型。我们系统地分析了多模态扩展规律、模态混合比例、噪声调度策略以及批量大小对模型性能的影响，并提供了优化的推理采样默认配置。我们的批量大小分析提出了一种基于随机微分方程（SDE）的新重参数化方法，该方法消除了近期研究中对最优批量大小进行调参的必要性。该重参数化将物理批量大小（通常根据计算资源限制选择，如GPU饱和度、FLOP效率、实际运行时间）与逻辑批量大小（用于平衡随机优化过程中的梯度方差）解耦。最后，我们在6.4万亿个标记（tokens）的数据上预训练了一个初步的30亿参数三模态模型，验证了统一架构的有效性，并在文本生成、文生图以及文生音任务中均取得了优异表现。本研究是迄今规模最大的系统性公开多模态离散扩散模型研究，为多模态扩展行为提供了深入洞察。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

2 天前

统一多模态

Louis Bethune Victor Turrisi Bruno Kacper Mlodozeniec Pau Rodriguez Lopez Lokesh Boominathan Nikhil Bhendawade Amitis Shidani Joris Pelemans Theo X. Olausson Devon Hjelm

摘要

离散扩散模型已成为自回归语言模型的有力替代方案。近期研究通过初始化并微调一个基础的单模态模型，实现了双模态生成。与以往方法不同，本文首次提出一种从零开始在文本、图文及音文数据上预训练的三模态掩码扩散模型。我们系统地分析了多模态扩展规律、模态混合比例、噪声调度策略以及批量大小对模型性能的影响，并提供了优化的推理采样默认配置。我们的批量大小分析提出了一种基于随机微分方程（SDE）的新重参数化方法，该方法消除了近期研究中对最优批量大小进行调参的必要性。该重参数化将物理批量大小（通常根据计算资源限制选择，如GPU饱和度、FLOP效率、实际运行时间）与逻辑批量大小（用于平衡随机优化过程中的梯度方差）解耦。最后，我们在6.4万亿个标记（tokens）的数据上预训练了一个初步的30亿参数三模态模型，验证了统一架构的有效性，并在文本生成、文生图以及文生音任务中均取得了优异表现。本研究是迄今规模最大的系统性公开多模态离散扩散模型研究，为多模态扩展行为提供了深入洞察。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供