Command Palette
Search for a command to run...
AdaGaR:面向动态场景重建的自适应Gabor表示
AdaGaR:面向动态场景重建的自适应Gabor表示
Jiewen Chan Zhenjun Zhao Yu-Lun Liu
Abstract
从单目视频中重建动态三维场景,需同时捕捉高频外观细节与时间上连续的运动信息。现有基于单个高斯基元的方法受限于其低通滤波特性,而传统的Gabor函数则易引发能量不稳定性。此外,由于缺乏时间连续性约束,插值过程中常出现运动伪影。为此,我们提出AdaGaR——一种统一框架,旨在解决显式动态场景建模中的频率自适应性与时间连续性问题。我们引入自适应Gabor表示(Adaptive Gabor Representation),通过可学习的频率权重与自适应能量补偿机制,扩展高斯基元,实现细节捕捉与稳定性之间的平衡。在时间连续性方面,采用带有时间曲率正则化的三次埃尔米特样条(Cubic Hermite Splines),确保运动演化过程的平滑性。此外,我们设计了一种自适应初始化机制,融合深度估计、点跟踪与前景掩码,以在训练初期建立稳定的点云分布。在Tap-Vid DAVIS数据集上的实验表明,AdaGaR达到当前最优性能(PSNR 35.49,SSIM 0.9433,LPIPS 0.0723),并在帧插值、深度一致性、视频编辑及立体视图合成等任务中展现出强大的泛化能力。项目主页:https://jiewenchan.github.io/AdaGaR/
一句话总结
国立阳明交通大学与萨拉戈萨大学的研究者提出 AdaGaR,一种统一的动态 3D 场景重建框架,通过引入可学习频率权重与能量补偿的自适应 Gabor 表示,实现高频细节保留与渲染稳定性,同时采用带时间曲率正则化的三次 Hermite 样条确保运动平滑,在视频重建、帧插值和视图合成任务中超越先前方法。
主要贡献
-
我们提出自适应 Gabor 表示,作为 3D 高斯的频率自适应扩展,能够学习动态频率权重并应用自适应能量补偿,同时保留高频纹理并维持渲染稳定性,克服了标准高斯的低通滤波限制以及固定 Gabor 函数的能量不稳定性。
-
我们提出基于三次 Hermite 样条的时间曲率正则化,以强制时间上平滑的运动轨迹,确保动态场景重建中的几何与时间连续性,有效消除快速运动或遮挡下的插值伪影。
-
我们设计了一种自适应初始化机制,融合单目深度估计、点跟踪与前景掩码,早期建立时间一致且稳定的点云分布,显著提升在 Tap-Vid DAVIS 数据集上的收敛速度与最终重建质量。
引言
从单目视频中重建动态 3D 场景在虚拟现实、增强现实和影视制作等应用中至关重要,其中平滑的时间运动与高保真纹理表示均不可或缺。以往基于高斯基元的方法因固有的低通滤波特性,难以保留高频细节;而如 Gabor 表示等频率增强方法常以牺牲能量稳定性与渲染质量为代价。此外,许多方法缺乏显式的时间约束,在快速运动或遮挡情况下易产生运动伪影。本文作者提出 AdaGaR,一种统一框架,联合优化显式动态表示中的时间和频率。该框架包含自适应 Gabor 表示,可学习频率响应以实现高低频建模的平衡并保持能量稳定;以及基于三次 Hermite 样条的时间曲率正则化,以强制平滑的运动轨迹。自适应初始化机制利用深度、运动与分割先验,引导生成稳定且时间一致的几何结构。该方法在 Tap-Vid 上取得最先进性能,展现出在视频重建、插值、深度一致性、编辑与立体视图合成等任务中的强大泛化能力。
方法
研究者采用统一框架 AdaGaR,应对从单目视频中显式动态场景建模所面临的频率自适应与时间连续性双重挑战。整体架构如框架图所示,运行于正交相机坐标系中,通过将相机与物体运动视为单一动态变化,简化了表示形式,避免了显式相机位姿估计的需要。方法核心由两个主要组件构成:自适应 Gabor 表示与自适应运动,二者通过多监督损失函数联合优化。

自适应 Gabor 表示将标准 3D 高斯点云渲染基元扩展,以捕捉高频外观细节。其通过引入可学习的周期性正弦分量调制传统高斯密度函数实现。Gabor 函数定义为 GGabor(x)=exp(−21∣∣x−μ∣∣Σ−12)cos(f⊤x+ϕ),在高斯包络内引入正弦调制,使表示能够刻画局部方向性纹理。为建模更丰富的频率成分,多个 Gabor 波被组合为加权叠加形式,S(x)=∑i=1Nωicos(fi⟨di,x⟩+ϕi),其中振幅权重 ωi 为可学习参数。为确保能量稳定并防止强度衰减,引入补偿项 b,最终得到自适应调制函数 Sadap(x)=b+N1∑i=1Nωicos(fi⟨di,x⟩)。该形式使表示可自适应地从低频高斯扩展至高频 Gabor 核,当频率权重消失时,补偿项确保其平滑退化为标准高斯。

自适应运动组件确保时间上平滑且一致的运动演化。它使用三次 Hermite 样条建模每个动态基元的轨迹,通过一组时间关键帧上的位置与速度进行插值。样条插值由 Hermite 基函数定义,利用控制点 yk 与斜率 mk 生成平滑曲线。为防止反向振荡并确保视觉稳定插值,采用带单调门控的自动斜率机制,若相邻关键帧间运动方向改变,则将斜率设为零。对于旋转,同样在 so(3) 李代数空间中插值,并转换为单位四元数。为强制平滑性并防止运动伪影,引入时间曲率正则化项,惩罚每个关键帧处轨迹的二阶导数,从而约束运动在几何与时间上的一致性。
优化过程由多目标损失函数驱动,融合多种监督信号。渲染重建损失结合 L1 与 SSIM,确保外观保真度;光流一致性损失源自 Co-Tracker,使基元投影位置与真实 2D 轨迹对齐;深度损失使用 DPT 的单目深度估计提供几何先验;最后,曲率正则化损失 Lcurv 强制平滑的时间演化。总损失为各分量的加权和,使模型在高保真渲染与鲁棒时间一致性之间取得平衡。自适应初始化机制融合深度、跟踪与掩码的多模态线索,生成稠密且时间一致的初始点云,减少早期闪烁现象,提升收敛性。
实验
- AdaGaR 在 Tap-Vid DAVIS 上实现视频重建的最先进性能,达到 35.49 dB PSNR 与 0.9433 SSIM,相比第二佳方法提升 6.86 dB PSNR,同时保持精细细节与时间一致性。
- 消融实验验证了自适应 Gabor 表示、带曲率正则化的三次 Hermite 样条与自适应初始化的有效性,显示在高频细节保留、运动平滑性与深度一致性方面表现更优。
- 该方法支持鲁棒的下游应用:帧插值生成平滑无伪影的中间帧并保留纹理细节;视频编辑通过共享的规范基元维持时间连贯性;立体视图合成从单目输入实现合理几何重建。
- 在 Tap-Vid DAVIS 上,该方法在 PSNR、SSIM 与 LPIPS 指标上均超越基线方法,单序列训练仅需 NVIDIA RTX 4090 上 90 分钟。
结果表明,所提方法在 Tap-Vid DAVIS 数据集上达到最先进性能,在 PSNR、SSIM 与 LPIPS 所有指标上均超越所有基线。其 PSNR 达到 35.49 dB,比第二佳方法 Splatter A Video 高出 6.86 dB,同时展现出更优的纹理细节与时间一致性。

结果表明,所提三次 Hermite 样条在所有指标上均取得最高 PSNR 与 SSIM,同时最小化 LPIPS,优于 B 样条与三次样条。作者利用该方法生成平滑的中间帧,展现出更优的时间连贯性与高频细节保留能力。

作者通过消融实验对比不同 Gabor 表示变体,结果表明自适应 Gabor 方法在 PSNR 与 SSIM 上最高,同时 LPIPS 最低,表明其重建质量与感知保真度更优。结果证明,引入补偿项 b 的自适应形式在所有指标上均优于标准高斯与朴素 Gabor 配置。
