
摘要
近年来,由于预训练大型语言模型和图像扩散模型的广泛应用,自动3D内容生成取得了快速进展,催生了“文本到3D内容生成”这一新兴研究方向。现有的文本到3D方法普遍采用隐式场景表示,通过体渲染将几何结构与外观特征耦合在一起,但在恢复精细几何细节和实现逼真渲染方面表现不佳,因此在生成高质量3D资产方面效果有限。针对这一问题,本文提出了一种名为Fantasia3D的新方法,用于实现高质量的文本到3D内容生成。Fantasia3D的核心在于对几何与外观进行解耦建模与学习。在几何建模方面,我们采用一种混合场景表示,并提出将该表示中提取的表面法线作为图像扩散模型的输入;在外观建模方面,我们首次将空间变化的双向反射分布函数(spatially varying Bidirectional Reflectance Distribution Function, BRDF)引入文本到3D任务中,以学习表面材质,从而实现生成表面的逼真渲染。所提出的解耦框架具有更强的通用性,与主流图形引擎高度兼容,支持生成3D资产的再光照、编辑以及物理仿真。通过大量实验验证,我们的方法在多种文本到3D任务设置下均显著优于现有方法。项目主页与源代码:https://fantasia3d.github.io/。