6 个月前

摘要

去噪扩散模型（Denoising Diffusion Models, DDMs）在三维点云生成任务中展现了令人瞩目的成果。为了推动三维DDMs的发展，并使其真正服务于数字艺术家，我们需要满足三个关键要求：（i）高质量的生成能力，（ii）灵活的可操控性与应用扩展能力，例如支持条件生成与形状插值，（iii）能够输出光滑的表面或网格结构。为此，我们提出了层级潜在点扩散模型（Hierarchical Latent Point Diffusion Model, LION），用于三维形状生成。LION采用变分自编码器（Variational Autoencoder, VAE）架构，其核心是一个分层的潜在空间结构，该结构同时包含全局形状潜在表示与点结构化的潜在空间。在生成阶段，我们在这两个层级潜在空间中分别训练了两个分层的DDM。与直接在点云上操作的DDM相比，该分层VAE架构显著提升了模型性能；同时，点结构化的潜在表示依然非常适合基于扩散模型的建模方式。实验结果表明，LION在多个ShapeNet基准测试中达到了当前最优的生成性能。此外，我们的VAE框架使得LION能够轻松拓展至多种相关任务：LION在多模态形状去噪和体素条件生成方面表现卓越，并可进一步适配为文本驱动或图像驱动的三维生成模型。我们还展示了形状的自动编码与潜在空间中的形状插值能力，并结合现代表面重建技术对LION进行增强，从而生成高质量的光滑三维网格。我们期望LION凭借其卓越的生成质量、高度的灵活性以及出色的表面重建能力，成为数字艺术家在三维形状创作中强有力的工具。项目主页与代码地址：https://nv-tlabs.github.io/LION。

源 PDF