Command Palette

Search for a command to run...

1 个月前

Lumina-DiMOO:一种用于多模态生成与理解的全模态扩散大型语言模型

Lumina-DiMOO:一种用于多模态生成与理解的全模态扩散大型语言模型

摘要

我们提出 Lumina-DiMOO,一个开源的基础模型,用于实现无缝的多模态生成与理解。Lumina-DiMOO 通过采用完全离散的扩散建模(fully discrete diffusion modeling)来处理跨多种模态的输入与输出,从而在结构上区别于以往的统一多模态模型。这一创新方法使其在采样效率方面显著优于先前的自回归(AR)或自回归-扩散混合(AR-Diffusion)范式,同时能够高效支持广泛的多模态任务,包括文本到图像生成、图像到图像生成(如图像编辑、主体驱动生成、图像修复等)以及图像理解。Lumina-DiMOO 在多个基准测试中取得了当前最优的性能,超越了现有的开源统一多模态模型。为推动多模态学习与离散扩散模型研究的进一步发展,我们已向社区公开项目代码与模型权重。项目主页:https://synbol.github.io/Lumina-DiMOO。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供