HyperAIHyperAI

Command Palette

Search for a command to run...

GaMO:面向稀疏视图三维重建的几何感知多视角扩散外推

Yi-Chuan Huang Hao-Jen Chien Chin-Yang Lin Ying-Huan Chen Yu-Lun Liu

Abstract

近年来,三维重建技术在从密集多视角图像中捕获高质量场景方面取得了显著进展,但在输入视角有限的情况下仍面临挑战。为应对这一难题,研究者提出了多种方法,包括正则化技术、语义先验以及几何约束等。最新的基于扩散模型的方法通过从新相机姿态生成新视角以扩充训练数据,显著提升了重建性能,超越了以往依赖正则化与先验的方法。然而,我们发现当前最先进的方法仍存在三大关键局限:对已知视角边缘之外区域的覆盖不足、生成视角间存在几何不一致性,以及计算流程过于复杂耗时。为此,我们提出GaMO(Geometry-aware Multi-view Outpainter)框架,通过多视角外推(multi-view outpainting)的方式重构稀疏视角下的三维场景。与传统生成新视角的方法不同,GaMO并非生成全新的视角,而是基于现有相机姿态扩展视场范围,从而在保持几何一致性的同时显著提升场景覆盖度。该方法采用零样本(zero-shot)策略,结合多视角条件控制与几何感知去噪机制,无需额外训练即可实现高效重建。在Replica和ScanNet++数据集上的大量实验表明,无论输入视角为3、6或9个,GaMO均实现了当前最优的重建质量,在PSNR和LPIPS指标上均优于现有方法。同时,其处理时间低于10分钟,相较当前最优的扩散模型方法提速达25倍。项目主页:https://yichuanh.github.io/GaMO/

一句话总结

国立阳明交通大学的作者提出 GaMO,一种几何感知的多视角扩散外绘方法,通过扩展稀疏输入视角来增强3D高斯点云重建,在利用零样本多视角条件与几何感知去噪的同时,实现了更优的几何一致性与视觉质量,相比以往基于扩散的方法在PSNR和LPIPS指标上表现更优,且处理时间减少25倍。

主要贡献

  • 稀疏视角3D重建在处理未观测区域时面临挑战,易产生空洞、鬼影和几何不一致,尤其当依赖扩散模型生成新视角时,各视角间易出现错位与伪影。

  • GaMO 引入了一种几何感知的多视角外绘框架,从现有相机位姿扩展视场,利用多视角条件与零样本几何感知去噪,保持一致性,避免新视角合成的陷阱。

  • 在 Replica 和 ScanNet++ 上评估,GaMO 在 3、6 和 9 个输入视角下均达到当前最优的 PSNR 与 LPIPS 结果,同时将重建时间压缩至 10 分钟以内——比以往基于扩散的方法快 25 倍——且无需任何训练。

引言

从有限输入视角重建3D场景对虚拟导览和远程存在等应用至关重要,但以往方法因数据稀疏而难以避免几何不完整与视觉伪影。尽管近期基于扩散的方法通过生成新视角提升了重建质量,但仍存在几何不一致、超出已知视场边缘的覆盖不足以及复杂轨迹规划带来的高计算成本等问题。作者提出 GaMO,一种几何感知的多视角外绘框架,通过扩展现有相机位姿的视场而非生成新视角,从根本上保持几何一致性,避免多视角对齐问题,并实现无需微调的零样本高效重建。GaMO 在 Replica 和 ScanNet++ 上对 3、6 和 9 个输入视角均达到当前最优性能,显著提升 PSNR 与 LPIPS 指标,同时实现 25 倍加速,重建时间低于 10 分钟。

方法

作者采用三阶段流程进行稀疏视角3D重建,首先进行粗略3D初始化以建立几何先验。该初始步骤使用 DUSSt3R 生成点云,并训练一个粗略3D高斯点云(3DGS)模型以捕捉场景结构。基于此模型,为每个目标外绘视角生成不透明度掩码与粗略颜色渲染图。不透明度掩码通过以扩大视场角(FOV)渲染场景并阈值化结果不透明度图获得,用于识别需外绘的区域;粗略渲染图提供外观先验。这两项输出作为后续基于扩散的外绘阶段的关键几何与外观线索。

该方法的核心是 GaMO(几何感知多视角扩散外绘器),一种在潜在空间中运行的多视角扩散模型,利用 DDIM 采样实现高效去噪。该模型通过多种信号进行条件控制,以确保几何一致性。对于相机表示,采用 Plücker 射线嵌入,为每个像素提供密集的6D射线参数化,编码射线起点与方向。对于几何对应,将输入RGB图像与标准坐标图(CCM)映射至扩展视场,原始输入图像则下采样后置于映射特征中心,形成增强信号。对于外观,使用变分自编码器(VAE)将输入RGB图像编码为干净潜在特征。所有条件信号通过轻量级卷积编码器处理,并与潜在特征融合,以零样本方式条件化预训练扩散模型。

GaMO 的核心组件是带掩码潜在融合的去噪过程,将粗略几何先验融入扩散循环。在选定的去噪时间步,将去噪后的潜在特征与粗略潜在特征进行融合,该粗略潜在特征由粗略渲染图编码获得。为确保两者具有相同噪声水平,向粗略潜在特征添加噪声。融合过程使用基于不透明度掩码的潜在空间掩码,其演化由迭代掩码调度控制。该过程确保外绘内容尊重现有场景结构,同时生成合理的外围区域。

为保持融合区域间的平滑过渡,每次融合操作后执行噪声重采样。融合后,模型从融合后的潜在特征中预测干净潜在特征,并将噪声重新添加至当前时间步。该重采样机制可防止边界伪影,确保粗略几何与生成内容之间的平滑融合。迭代掩码调度策略在去噪过程中动态调整掩码区域,通过在特定去噪步骤中逐步缩小掩码尺寸,平衡生成自由度与几何一致性,使模型先探索外围内容,再在粗略区域内细化几何。该框架确保外绘区域与已知内容无缝融合,同时保持几何合理性,仅需推理,无需微调主干扩散模型。

实验

  • 使用外绘视角进行3DGS优化:联合优化输入视角与外绘视角验证了感知损失(LPIPS)与掩码潜在融合能提升重建质量,减少伪影,增强未观测区域的几何一致性。
  • 在 Replica 和 ScanNet++ 上的定量评估:在 Replica 上达到 25.84 dB PSNR,LPIPS 比 GuidedVD-3DGS 降低 25.9%,在 ScanNet++ 上达到 23.41 dB PSNR,LPIPS 降低 11.3%,同时快 25 倍。
  • 在 Mip-NeRF 360 上的泛化能力:在九个室内外场景中,PSNR、SSIM 和 LPIPS 均优于 3DGS、GenFusion 和 GuidedVD-3DGS,保持结构保真度与高频细节。
  • 消融研究:证明迭代掩码调度、硬掩码与噪声重采样能提升外绘质量与3DGS优化效果,感知损失显著减少伪影并填补空洞。
  • 多视角一致性:在外绘一致性和重建质量上优于适配的扩散基线方法(SEVA、MGenMaster),避免多视角不一致与噪声问题。
  • 运行时间:在单张 RTX 4090 GPU 上,6视角重建耗时不足9分钟,各阶段流程高效。

结果表明,在3DGS优化过程中结合点云重初始化与感知损失,可在 Replica 和 ScanNet++ 数据集上取得最佳性能,实现最高PSNR与SSIM,同时保持最低LPIPS。完整方法在所有指标上均优于基线及各消融变体。

结果表明,GaMO 在所有对比方法中实现了最高的 PSNR 与 SSIM 值,同时达到最低的 LPIPS 分数,表明其具有更优的重建质量与感知一致性。作者采用联合优化框架,结合输入视角与外绘视角以优化3DGS模型,感知损失引导未观测区域的填充。

作者采用多步掩码融合策略与迭代掩码调度,显著提升外绘视角质量,在 PSNR、SSIM 与 LPIPS 指标上优于单步与每步融合方法。结果表明,该方法生成的重建更具一致性与几何合理性,尤其在结构复杂的挑战区域表现更优。

作者采用三阶段重建流程,整个端到端流程在单张 NVIDIA RTX 4090 GPU 上耗时 491 秒(8.18 分钟)。耗时最长的阶段是 3DGS 优化,耗时 280 秒(4.67 分钟),其次为多视角外绘,耗时 93 秒(1.55 分钟),粗略3DGS初始化与渲染耗时 118 秒(1.97 分钟)。

结果表明,所提方法在 ScanNet++ 上所有视角设置(3、6、9个输入视角)下均优于 GuidedVD-3DGS,PSNR 更高,SSIM 更优,LPIPS 更低,且重建时间显著缩短。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供