Command Palette
Search for a command to run...
F4Splat:面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法
F4Splat:面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法
Injae Kim Chaehyeon Kim Minseong Bae Minseok Joo Hyunwoo J. Kim
摘要
前馈式 3D 高斯泼溅(3D Gaussian Splatting)方法能够实现单遍重建与实时渲染。然而,现有方法通常采用僵化的像素到高斯或体素到高斯的处理流程,均匀地分配高斯元素,导致在不同视角下产生大量冗余高斯。此外,这些方法缺乏在保持重建保真度的同时有效控制高斯总数的机制。针对上述局限,本文提出 F4Splat,该方法为前馈式 3D 高斯泼溅引入了前馈预测性致密化(predictive densification)机制,并提出了一种由致密化得分引导的分配策略,能够根据空间复杂度与多视角重叠程度自适应地分布高斯。我们的模型能够预测各区域的致密化得分,以估算所需的高斯密度,并允许在不重新训练的情况下对最终的高斯预算进行显式控制。这种空间自适应分配策略有效减少了简单区域的冗余,并最小化了重叠视角下的重复高斯,从而生成了既紧凑又高质量的 3D 表示。大量实验表明,与以往未校准的前馈方法相比,本模型在显著减少高斯数量的同时,实现了更优越的新视角合成性能。
一句话总结
KAIST 和韩国大学的研究人员提出了 F4Splat,这是一种前馈 3D 高斯泼溅(Gaussian Splatting)模型,它引入了一种由致密化分数引导的分配策略,能够根据空间复杂度自适应地分布图元。与以往均匀分布的方法不同,该技术无需重新训练即可实现对高斯预算的显式控制,在显著减少图元数量的同时实现了更优的新视角合成效果。
主要贡献
- 本文提出了 F4Splat,这是一个前馈框架,能够从稀疏、未标定的图像中重建 3D 高斯泼溅表示,并通过预测性致密化实现对最终高斯数量的显式控制。
- 提出了一种由致密化分数引导的分配策略,用于预测空间复杂度和多视图重叠情况,使该方法能够在无需迭代优化的情况下自适应地分布高斯,并在有限的预算下保持高保真度。
- 大量实验表明,与以往未标定的前馈方法相比,该方法在利用显著更少的高斯数量的同时,实现了更优或相当的新视角合成质量。
引言
前馈 3D 高斯泼溅能够实现快速的单遍场景重建和实时渲染,这对于需要从稀疏输入中立即进行 3D 可视化的应用至关重要。然而,现有方法由于依赖僵化的像素到高斯或均匀体素到高斯的流程,忽略了空间复杂度,导致高斯分配效率低下。这种方法导致简单区域出现冗余图元,重叠视图间出现重复高斯,且缺乏在不重新训练的情况下控制高斯总数的机制。作者利用由致密化分数引导的分配策略,在单次前向传播中执行预测性致密化,使模型能够根据空间细节和多视图重叠情况自适应地分布高斯。这一贡献实现了对最终高斯预算的显式控制,生成了紧凑且高保真的 3D 表示,在图元数量显著减少的情况下优于以往未标定的方法。
数据集

- 数据集构成与来源:作者在两个大规模数据集 RealEstate10K (RE10K) 和 ACID 上训练 F4Splat,遵循先前工作中既定的训练/测试划分。
- 子集细节与评估设置:
- 对于双视图评估,作者采用了先前前馈方法使用的标准测试划分。
- 对于多视图评估,他们利用 NoPoSplat 的场景分类来选择重叠较小的输入对,然后在每对之间采样额外视图,以达到 8、16 或 24 个视图的目标数量,且不重复。
- 训练策略与混合:
- 多视图模型仅在 RE10K 上训练 15,000 次迭代。
- 在每次迭代中,系统从集合 {2, 3, 4, 6, 12, 24} 中动态采样输入视图的数量,并选择相同数量的目标新视图进行监督。
- 为了保持每次迭代的总图像数量恒定,作者采用了与上下文图像数量成反比的动态批量大小。
- 分别基于 RE10K 和 ACID 构建了用于双视图训练的独立模型,每个模型运行 18,750 次迭代,批量大小固定为 128。
- 处理与实现:
- 模型从预训练的 VGGT 权重初始化,并使用三级多分辨率特征图,其中最细级别与输入图像分辨率匹配。
- 训练过程中冻结几何骨干网络中的补丁嵌入权重,同时以较低的学习率训练其余参数。
- 除了上述视图采样和场景分类逻辑外,未提及特定的裁剪策略或元数据构建。
方法
作者提出了 F4Splat,这是一种前馈网络,旨在通过预测性致密化从一组图像中生成 3D 高斯图元。与依赖均匀分配的先前方法不同,该框架允许用户通过空间自适应高斯分配按需调整高斯数量,从而更有效地利用可用的高斯预算。
整体框架由几何骨干网络、高斯中心与参数头以及空间自适应高斯分配模块组成。如框架图所示:
几何骨干网络使用 DINOv2 编码器和交替的自注意力层对输入上下文图像中的几何信息进行编码,以预测相机参数。编码后的特征随后被传递给两个并行头。高斯中心头预测高斯中心,而高斯参数头预测其余图元参数(不透明度、旋转、缩放、球谐系数)以及致密化分数图。这些头利用改进的基于 DPT 的解码器,在不同分辨率下生成多尺度高斯参数图和致密化分数图。
为了控制最终的高斯数量,该方法采用了一种空间自适应分配策略。网络预测致密化分数图,以估计需要增加高斯密度的位置。在推理过程中,提供用户指定的目标高斯预算 NˉG。预算匹配算法计算满足该预算的阈值 τ。分配模块随后根据此阈值从多尺度图中选择高斯。具体而言,如果某空间区域的致密化分数超过 τ,则从更细的尺度级别为该区域分配高斯。这一过程确保了更多的高斯被分配给几何或视觉上复杂的区域,同时避免了简单区域或重叠视图中的冗余。
训练过程涉及优化网络以预测准确的相机参数和高斯图元,同时学习致密化分数。作者利用渲染损失 Lrender,该损失在渲染的新视图与真实目标图像之间计算。为了训练致密化分数预测,该方法通过反向传播渲染损失,获得每个高斯的同向视图空间位置梯度 vg。如分数计算图所示:
梯度范数被转换为目标致密化分数 dg=log(1+104⋅∥vg∥2)。随后,网络使用 ℓ1 损失 LGscore 训练以预测该分数 d^g。此外,训练目标还包括相机损失 Lcamera 和场景尺度正则化损失 Lscene,用于归一化高斯中心的平均距离。通过使用新视图而非仅上下文视图对模型进行监督,该方法学习到的致密化分数在不同视点间具有更好的泛化能力,从而能够以紧凑的高斯表示实现高保真重建。
实验
- 在 RE10K 和 ACID 数据集上的主要实验验证了,该方法在显著减少高斯图元数量的情况下实现了高保真的新视角合成,即使在稀疏的双视图输入下也能保持具有竞争力的性能。
- 定性结果表明,与现有方法相比,该方法具有更清晰的结构和减少的模糊伪影,证实了显式的密度控制能够实现紧凑且准确的 3D 表示。
- 消融研究证实,学习到的致密化分数优于随机和基于频率的分配策略,因为它优先处理复杂区域,同时避免了重叠区域的冗余。
- 实验表明,层级高斯监督对于稳定的多尺度优化至关重要,而场景尺度正则化对于防止未标定设置下的训练失败至关重要。
- 额外的评估表明,该模型能有效泛化到未见过的数据集以进行相对位姿估计,并且为空间自适应高斯分配引入的计算开销极小。