Command Palette
Search for a command to run...
具有学习密度控制的生成式 3D 高斯模型
具有学习密度控制的生成式 3D 高斯模型
Runjie Yan Yan-Pei Cao Peng Wang Ding Liang Yuan-Chen Guo
摘要
本文提出密度采样高斯(Density-Sampled Gaussians, DeG)这一新颖的3D表示方法,旨在弥合自适应渲染基元与可扩展生成建模之间的差距。与现有将3D高斯限制在固定体素网格或数组中的方法不同,DeG将高斯中心建模为定义在八叉树(octree)上的可学习概率密度函数的采样结果。这种公式化为自适应密度控制提供了严谨的数学框架:在渲染监督下联合优化空间密度和高斯属性,使得模型能够自然地将基元集中在几何结构复杂的区域。我们实现这一目标的关键在于提出了一种新的渲染损失贡献梯度,该梯度作为标准高斯溅射(Gaussian Splatting)中离散加密和修剪启发式规则的全可微分模拟,有效替代了传统的离散操作。所得到的表示方法具有极高的灵活性,支持通过简单调整采样预算,从单一潜在代码(latent code)中解码出不同分辨率的3D表示。为了实现生成式合成,我们在DeG上训练了一个潜在扩散模型(latent diffusion model)。我们发现在将扩散模型应用于无序集合结构的潜在变量时存在一个关键挑战,即显著拖慢收敛速度;为此,我们提出了VecSeq,这是一种规范的重新索引机制,它将潜在token锚定到确定的3D Sobol序列上。这一机制将模糊的集合生成问题转化为鲁棒的序列建模任务。大量实验表明,我们的流水线在单图像到3D生成任务中达到了最先进水平(state-of-the-art),结合了非结构化基元的结构适应性与基于网格方法的训练稳定性。
一句话总结
作者提出密度采样高斯(DeG),一种将高斯中心建模为从八叉树上的可学习概率密度中采样的3D表示,并采用可微渲染损失贡献梯度进行自适应密度控制,同时将其与VecSeq(一种确定性Sobol序列重索引,可稳定无序集合上的潜在扩散)相结合,实现了最先进的单图像到3D生成。
核心贡献
- 密度采样高斯(DeG)将高斯中心建模为从八叉树上定义的可学习概率密度函数中采样。完全可微的渲染损失贡献梯度取代了不可微的增密与剪枝,从而能够自适应地将图元分配到几何复杂区域,并从单个潜码实现可变分辨率解码。
- 成对的自编码器将3D资产压缩为紧凑的潜在token,并将其解码为DeG,在渲染监督下进行端到端密度优化。在相近的高斯预算下,该方法显著提升了重建质量,并随着锚点数量或token长度的增加展现出平滑的扩展性。
- VecSeq通过最优传输将潜在token锚定到确定性3D Sobol序列,解决了无序集合结构潜在表示中因排列歧义导致的收敛缓慢问题。这将集合生成问题转化为鲁棒的序列建模任务,从而实现更快的收敛和最先进的单图像到3D生成质量。
引言
3D高斯泼溅已成为实时新视角合成的主流表示,但现有生成管线难以保留高斯的核心灵活性:它们通常将输出绑定到固定结构(如体素网格、每像素或每patch计数),因此无法自适应地将更多图元分配到复杂区域。试图放松这些约束的方法要么需要昂贵的逐对象优化来创建真值目标,要么均匀采样图元,未能学习到能将细节导向最需要之处的全局密度。作者用密度采样高斯(DeG)解决该问题,这是一种生成式表示,在八叉树上定义经渲染优化的密度并从中采样高斯中心,从而支持可变大小输出,并在可学习预算下实现智能、自适应的容量分配。作者进一步构建了成对自编码与扩散管线,并采用VecSeq公式解决潜在token中的排列歧义,从而在低预算下实现高质量的单图像条件生成,并持续获得增益。
方法
作者提出一个生成框架,包含两个核心组件:密度采样高斯变分自编码器(DeG-VAE)和VecSeq扩散Transformer。DeG-VAE将3D资产编码到紧凑的潜在空间,并通过学习的空间概率密度进行解码,支持高斯图元的动态分配。扩散模型随后学习以单张输入图像为条件的这些潜在变量分布。如框架图所示,该管线集成了编码、密度解码和属性解码,以支持可变分辨率输出。
DeG-VAE从集合编码器开始。对于3D资产,作者将几何和外观表示为潜在token集合 Z。他们从多视图RGB渲染和显式表面几何中聚合信息。使用DINOv3提取特征图以保持语义一致性,使用FLUX.2 VAE提取高频纹理细节。表面点被投影到这些特征图上。基于Transformer的集合编码器通过最远点采样(FPS)将这些变长点特征压缩为固定大小的潜在集合 Z。
为实现自适应分配,作者将高斯中心预测表述为从学习的条件概率密度 qθ(x∣Z) 在 R3 上的采样过程。该密度使用L层八叉树分解进行参数化,以保持稀疏计算。联合概率分解为子节点条件分布的乘积。在推理时,从该密度中抽样锚点,锚点数量 P 可调,以在速度与保真度之间权衡。如下图所示,网络迭代预测已占用体素的密度值,以从最粗到最细级别分配点。
利用采样锚点建立空间支持后,基于Transformer的属性解码器预测高斯图元的参数,包括不透明度、缩放、旋转和球谐系数。为捕捉局部表面细节,局部扩展机制允许每个锚点生成 K 个具有学习局部偏移的独立高斯。这种分层方法产生 N=P⋅K 个总splat。有关编码器、密度解码器、属性解码器和扩散Transformer的具体神经网络架构,请参阅详细架构图。
该管线中的一个关键挑战是端到端优化空间密度 qθ,因为采样操作不可微。作者通过推导渲染损失贡献梯度来解决此问题。他们寻求最小化密度分布上的期望渲染损失。梯度计算涉及差分奖励项:ΔLrender=Lrender({xi}i=1P)−Lrender({xi}i=jP)。该项衡量每个锚点 xj 对减少渲染误差的边际贡献,有效地执行可微增密与剪枝。作者通过在标准3DGS反向光栅化过程中累积图元级别的贡献,实现了该梯度的有效版本。VAE通过三阶段课程训练,结合结构监督和渲染监督:结构初始化、外观训练和联合细化。
对于生成建模任务,作者使用基于Flow Matching框架的扩散Transformer对潜在码 Z 的分布进行建模。这里的一个基本挑战是排列歧义;无序集合token缺乏内在顺序,导致收敛缓慢。为解决此问题,作者提出VecSeq,一种规范的重索引策略。他们使用最优传输将无序潜在token与固定的、确定性3D Sobol序列对齐。这将模糊的集合生成问题转化为鲁棒的序列建模任务。如下图所示,潜在token与3D位置相关联,并通过将它们与确定性锚点匹配来规范排序,从而在扩散Transformer中使用位置编码。
通过将Sobol锚点的正弦位置嵌入注入扩散模型,模型学习预测一个序列,其中第j个输出对应于特定的空间位置,显著提高收敛性和生成质量。
实验
评估使用Toys4K数据集进行定量重建和生成测试,并使用自收集的高质量图像进行定性生成比较。重建实验表明,DeG‑VAE通过学习高效、可变大小的高斯分配,提高了视觉保真度,尤其是在容量有限的情况下,并且学习的密度控制进一步增强了低预算重建。生成管线实现了最先进的图像条件对齐和感知质量,token重排序被证明对语义一致性至关重要,而用户研究证实其更丰富的细节和自然的色彩优于竞争网格和高斯模型。偶尔会出现失败案例,由于具有挑战性的条件输入或有限的生成能力,在新视角下产生。
作者通过改变解码的高斯数量同时保持token长度固定,评估了高斯预算对重建质量的影响。结果表明,增加高斯数量在所有评估指标上持续提高视觉保真度。随着解码高斯数量的增加,重建质量稳步提高。更高的高斯预算带来更好的PSNR和SSIM分数,同时降低LPIPS。该模型在可用高斯容量方面表现出良好的扩展行为。
作者进行了用户研究,使用复杂提示词评估其方法相对于多个基线的感知质量。参与者对渲染视频进行成对比较,以评估整体质量和条件对齐。所提方法获得了最高的偏好评分,显著优于竞争网格和高斯生成模型。该方法在用户偏好中排名第一,展示了卓越的视觉质量和对输入图像的对齐。所有竞争基线获得较低的偏好评分,所提方法相对于第二好的方法有显著优势。该研究验证了生成的3D资源比基于网格和基于高斯的替代方案更受青睐。
作者评估了扩散训练期间token重排序的影响,将他们的方法与使用无序潜在变量的基线进行比较。结果表明,重排序token以建立一致的空间对应关系,显著改善了提示对齐和生成资源的整体分布质量。与无序基线相比,token重排序带来更好的图像条件对齐。所提方法以更低的距离度量实现了卓越的分布质量。为token索引建立一致的空间意义,使得训练期间的位置嵌入更加有效。
作者在标准数据集上评估了其重建方法与代表性基线的对比。结果表明,他们的方法在所有报告的重建质量指标上大幅优于竞争方法,同时使用相当数量的高斯,展示了更有效的渲染容量分配。所提方法在所有评估指标中实现了最高的重建质量。该方法使用与基线相似的高斯预算,但通过自适应密度分配提供了更高的视觉保真度。所提方法的解码时间略高于基线,反映出为显著提升重建性能而做出的微小权衡。
作者对DeG-VAE模型的关键超参数进行了消融实验,包括局部扩展因子、八叉树深度和正则化损失。实验表明,适中的超参数设置实现了重建保真度与计算效率之间的最佳平衡。加入正则化损失也略微提升了整体重建质量。将局部扩展因子增加到适中值以上只会带来重建质量的边际增益,同时增加计算成本。将八叉树深度设置为适中水平可实现最佳重建性能,而更深的八叉树训练时间更高,但质量相当。与完整模型配置相比,省略正则化损失会导致重建保真度略微下降。
实验评估了重建质量随高斯预算的扩展、用户相对于基线的偏好、token重排序的益处以及超参数选择。增加解码高斯数量会稳步提升视觉保真度,适中超参数设置能最好地平衡质量和成本。用户研究表明,所提出的方法在感知质量和条件对齐方面显著优于网格和高斯方法基线。建立空间对应关系的token重排序持续提升提示对齐和分布质量,并且所提出的重建方法通过更有效的容量分配,在相似高斯数量下实现了优越的结果。