11 天前

DreamFusion:基于2D Diffusion的文本到3D生成

Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall
DreamFusion:基于2D Diffusion的文本到3D生成
摘要

近年来,文本到图像合成领域的突破主要得益于在数十亿图像-文本对上训练的扩散模型。若将此类方法应用于三维合成,通常需要大规模标注的三维数据集以及高效的三维数据去噪架构,但目前这两者均尚未存在。在本研究中,我们通过利用预训练的二维文本到图像扩散模型,绕过了上述限制,实现了文本到三维模型的合成。为此,我们提出一种基于概率密度蒸馏(probability density distillation)的损失函数,使预训练的二维扩散模型可作为参数化图像生成器优化过程中的先验知识。在类似DeepDream的优化流程中,我们通过梯度下降对一个随机初始化的三维模型(即神经辐射场,NeRF)进行优化,使其从任意视角渲染出的二维图像能够达到较低的损失值。最终生成的三维模型可从任意角度观察,支持任意光照条件下的重照明,或无缝合成至任意三维场景中。本方法无需依赖任何三维训练数据,也无需修改原始图像扩散模型,充分展示了预训练图像扩散模型作为先验知识在三维生成任务中的强大潜力。

DreamFusion:基于2D Diffusion的文本到3D生成 | 最新论文 | HyperAI超神经