15 天前

MIDI:基于多实例扩散的单图像到3D场景生成

{Lu Sheng, Yan-Pei Cao, Xihui Liu, Ding Liang, Zi-Xin Zou, Yangguang Li, Yunhan Yang, Xingqiao An, Yuan-Chen Guo, Zehuan Huang}
MIDI:基于多实例扩散的单图像到3D场景生成
摘要

本文提出MIDI,一种基于单张图像的组合式3D场景生成新范式。与现有依赖重建或检索技术的方法,以及近期采用多阶段逐对象生成的方案不同,MIDI将预训练的图像到3D物体生成模型扩展为多实例扩散模型,实现了多个3D实例的同步生成,并在保持精确空间关系的同时具备出色的泛化能力。MIDI的核心在于引入了一种新颖的多实例注意力机制,该机制能够在生成过程中直接捕捉物体间的交互关系与空间一致性,无需复杂的多步处理流程。该方法以部分物体图像与全局场景上下文作为输入,直接建模生成过程中的物体补全。在训练阶段,我们仅使用有限的场景级数据对3D实例间的交互进行有效监督,同时结合单物体数据进行正则化,从而在保持预训练模型泛化能力的前提下实现高质量生成。MIDI在图像到场景生成任务中展现出当前最优的性能,其有效性已在合成数据、真实世界场景数据,以及由文本到图像扩散模型生成的风格化场景图像等多个评估场景中得到验证。

MIDI:基于多实例扩散的单图像到3D场景生成 | 最新论文 | HyperAI超神经