Command Palette
Search for a command to run...

摘要
我们提出 Lumina-DiMOO,一个开源的基础模型,用于实现无缝的多模态生成与理解。Lumina-DiMOO 通过采用完全离散的扩散建模(fully discrete diffusion modeling)来处理跨多种模态的输入与输出,从而在结构上区别于以往的统一多模态模型。这一创新方法使其在采样效率方面显著优于先前的自回归(AR)或自回归-扩散混合(AR-Diffusion)范式,同时能够高效支持广泛的多模态任务,包括文本到图像生成、图像到图像生成(如图像编辑、主体驱动生成、图像修复等)以及图像理解。Lumina-DiMOO 在多个基准测试中取得了当前最优的性能,超越了现有的开源统一多模态模型。为推动多模态学习与离散扩散模型研究的进一步发展,我们已向社区公开项目代码与模型权重。项目主页:https://synbol.github.io/Lumina-DiMOO。