11 天前
基于潜在空间的NeRF用于形状引导的三维形状与纹理生成
Gal Metzer, Elad Richardson, Or Patashnik, Raja Giryes, Daniel Cohen-Or

摘要
近年来,文本引导的图像生成技术取得了迅猛发展,推动了文本引导三维形状生成领域的重大突破。最近的研究表明,通过使用得分蒸馏(score distillation)方法,可以成功地以文本为指导,生成三维物体的神经辐射场(NeRF)模型。本文将该方法拓展至公开可用且计算高效的潜在扩散模型(Latent Diffusion Models),这些模型在预训练自编码器的紧凑潜在空间中执行整个扩散过程。由于NeRF在图像空间中运行,若采用传统的潜在空间得分蒸馏来引导NeRF,需在每一步引导过程中反复将图像编码至潜在空间,这在计算上代价高昂。为此,我们提出将NeRF模型迁移至潜在空间,从而构建一种新型的“潜在NeRF”(Latent-NeRF)。通过对所提出的Latent-NeRF进行分析,我们发现尽管当前的文本到三维(Text-to-3D)模型能够生成令人印象深刻的三维结果,但其本质上缺乏约束,难以有效引导或强制生成特定的三维结构。为增强对三维生成过程的控制与引导能力,我们提出引入“草图-形状”(Sketch-Shape)作为辅助约束:这是一种抽象几何表示,用于定义目标物体的粗略结构。随后,我们提出一种方法,可将此类几何约束直接整合进Latent-NeRF模型中。这一文本与形状双重引导的结合,显著提升了生成过程的可控性。此外,我们还证明了潜在空间得分蒸馏可直接应用于三维网格(3D meshes),从而实现对给定几何体的高质量纹理生成。实验结果验证了多种引导方式的有效性,以及潜在渲染在效率方面的优势。相关代码已开源,可访问 https://github.com/eladrich/latent-nerf 获取实现。