11 小时前

Hongfei Zhang Harold Haodong Chen Chenfei Liao Jing He Zixin Zhang Haodong Li Yihao Liang Kanghao Chen Bin Ren Xu Zheng

DVD：基于生成先验的确定性视频深度估计

摘要

现有的视频深度估计面临一个根本性的权衡困境：生成式模型容易受到随机几何幻觉和尺度漂移的影响，而判别式模型则需要海量的标注数据来解决语义歧义。为了打破这一僵局，我们提出了 DVD，这是首个能够将预训练视频扩散模型（Diffusion models）确定性地适配为单次前向深度回归器的框架。具体而言，DVD 包含三个核心设计：（i）复用扩散时间步（timestep）作为结构锚点，以平衡全局稳定性与高频细节；（ii）潜在流形修正（Latent Manifold Rectification, LMR），通过施加微分约束来缓解由回归引起的过度平滑问题，从而恢复锐利的边界和连贯的运动；（iii）全局仿射一致性，这是一种固有的属性，用于限制窗口间的发散，从而无需复杂的时序对齐即可实现无缝的长视频推理。广泛的实验表明，DVD 在多个基准测试中取得了最先进的零样本（zero-shot）性能。此外，与领先的基线模型相比，DVD 仅使用 163 倍更少的任务特定数据，便成功解锁了视频基础模型中隐含的深刻几何先验。值得注意的是，我们完全开源了我们的 pipeline，提供了完整的训练套件，旨在造福开源社区。

一句话总结

作者提出了 DVD，这是一个确定性地将预训练视频扩散模型适配为单 pass 深度回归器的框架，旨在通过潜流形校正和全局仿射一致性解决随机几何幻觉和大规模标注数据集需求的问题，实现了最先进的零样本性能，其任务特定数据比领先基线少 163 倍，同时解锁了深刻的几何先验。

核心贡献

DVD 是首个确定性地将预训练视频扩散模型适配为单 pass 深度回归器的框架。该方法绕过随机采样以解决歧义 - 幻觉困境，同时将语义丰富性与结构稳定性相结合。
三个核心设计包括将扩散时间步重新用作结构锚点，并采用潜流形校正来对运动施加微分约束。全局仿射一致性使得无需复杂的时间对齐即可实现无缝的长视频推理。
大量实验表明，在基准测试中，DVD 实现了最先进的零样本性能，其任务特定数据比领先基线少 163 倍。完整的训练流程已完全发布，以造福开源社区。

引言

视频深度估计是 3D 场景理解的基础组件，应用范围从自动驾驶到机器人操作。当前方法面临一个根本的权衡，即生成模型遭受随机几何幻觉，而判别模型需要大规模标注数据集来解决语义歧义。作者引入了 DVD，这是首个确定性地将预训练视频扩散模型适配为单 pass 深度回归器的框架。该方法利用时间步结构锚点和潜流形校正在全局稳定性与高频细节之间取得平衡，实现了最先进的零样本性能，其任务特定数据比领先基线少 163 倍。

方法

作者提出了一种新颖的视频深度估计框架，弥合了生成先验与确定性稳定性之间的差距。该方法在压缩的潜流形内运行，以利用大规模预训练模型丰富的语义知识，同时确保几何一致性。

整体流程首先将视频深度估计形式化为从输入 RGB 序列 $x \in \mathbb{R}^{F \times 3 \times H \times W}$ 到深度序列 $d \in \mathbb{R}^{F \times H \times W}$ 的映射。为了利用预训练能力，冻结的变分自编码器 (VAE) 编码器 $\mathcal{E}$ 将 RGB 和深度数据投影到统一的潜空间，定义为 $z_x = \mathcal{E}(x)$ 和 $z_d = \mathcal{E}(d)$ 。核心目标是学习一个确定性映射 $\Phi: z_x \mapsto z_d$ ，在该潜空间中直接恢复几何结构，最终深度通过冻结的 VAE 解码器重建。

参考框架图以查看完整架构的可视化，其中包括训练适配和长视频推理阶段。

在确定性适配阶段，作者将预训练的视频扩散 Transformer (Video DiT) 重新用作单步回归器，而不是执行迭代随机去噪。网络 $\mathcal{F}_\theta$ 不是求解噪声轨迹上的常微分方程，而是在单次前向传播中执行直接函数映射 $\hat{z}_d = \mathcal{F}_\theta(z_x, \tau)$ 。一个关键的设计选择涉及条件时间步 $\tau$ 。与标准扩散模型中 $t$ 参数化生成期间的噪声水平不同，作者利用 $\tau$ 作为结构锚点。通过正弦嵌入将时间步固定为最佳状态 $\tau_0$ ，模型被校准到特定的几何操作机制。这种频率参数化的条件平衡了低频全局稳定性与高频局部细节恢复，防止了在将扩散骨干网络适配到确定性任务时经常观察到的过度平滑。

为了解决基于回归的训练中固有的均值坍缩问题，该框架引入了潜流形校正 (LMR)。标准逐点损失倾向于将预测推向条件期望，冲淡高频结构细节并导致时间闪烁。LMR 通过在潜空间中强制微分一致性来对抗这一点，而无需辅助模块。监督策略将预测潜量的空间梯度和时间流与真值对齐。空间校正损失 $\mathcal{L}_{sp}$ 惩罚低频坍缩以保持清晰的边界，而时间校正损失 $\mathcal{L}_{temp}$ 同步帧间动态以确保连贯的运动。这些项与全局 $L_2$ 损失结合形成总视频目标，有效地在确定性回归的平滑效应下保留潜高频结构。

对于长视频推理，内存限制需要滑动窗口方法。虽然确定性骨干网络消除了随机尺度漂移，但 VAE 解码器的上下文依赖归一化仍可能在窗口之间引起深度值波动。为了解决这个问题，作者利用全局仿射一致性的固有属性，观察到窗口间的差异可以通过线性尺度 - 平移变换来近似。在推理期间，系统采用最小二乘法求解器基于相邻窗口之间的重叠来估计全局尺度 $s$ 和平移 $t$ 。该仿射校准被广播到整个当前窗口，允许重叠帧的无缝混合。此策略使得长视频能够进行鲁棒的无闪烁深度估计，而无需复杂的特征匹配或循环时间模块。最后，模型通过图像 - 视频联合训练策略进行优化，其中静态图像充当高频空间锚点，而视频序列强制时间一致性，确保空间清晰度和时间稳定性。

实验

评估利用标准视频和图像深度基准，将提出的 DVD 方法与最先进的生成式和判别式基线在涉及时间一致性、边界精度和单图像泛化的任务中进行比较。结果表明，DVD 实现了优越的几何保真度和长期时间一致性，同时保持了有竞争力的推理速度，并且需要比可比生成模型显著更少的训练数据。进一步分析证实，确定性适配和联合图像 - 视频训练对于防止几何幻觉和确保跨不同开放世界场景的鲁棒可扩展性至关重要。

作者将 DVD 方法与 ChronoDepth、DepthCrafter 和 VDA 在 KITTI、DIODE 和 NYUv2 数据集上进行了比较。结果表明，DVD 在 KITTI 和 DIODE 上取得了最佳性能，优于判别式和生成式基线。在 NYUv2 数据集上，该方法表现出有竞争力的精度，紧随表现最佳的 VDA 之后，同时显著超越了其他方法。与所有列出的基线相比，DVD 在 KITTI 和 DIODE 基准测试中实现了最高的精度。所提出的方法在所有评估的数据集中显著优于 DepthCrafter 等生成模型。DVD 展示了鲁棒的单图像泛化能力，在 NYUv2 上与强大的 VDA 基线竞争表现。

作者分析了重叠大小对模型性能和效率的影响。结果表明，增加重叠大小始终提高了几何精度和阈值指标。然而，这种质量提升伴随着相对推理时间的显著增加。随着重叠大小的增加，绝对相对误差降低。阈值精度随着更大的重叠配置而提高。相对推理时间随着更大的重叠设置稳步上升。

作者在包括 Bonn、ScanNet 和 KITTI 在内的标准基准测试上评估了 DVD 与最先进的视频深度估计方法。结果显示，与生成式和判别式基线相比，DVD 始终实现了优越的几何保真度和时间一致性。该方法通过利用确定性适配而非迭代采样，展示了显著的效率提升。DVD 在所有测试数据集上实现了顶级精度，优于 DepthCrafter 和 VDA 等方法。确定性适配方法绕过了与迭代生成采样相关的计算瓶颈。联合图像 - 视频训练确保模型在保持时间一致性的同时保留高空间精度。

该表展示了一项消融研究，评估 LoRA 秩对模型性能的影响。结果表明，将秩从最低设置增加显著降低了误差并提高了精度指标。然而，从中等秩移动到最高秩产生的收益递减，表明中等秩足以实现最佳性能。增加 LoRA 秩导致误差减少和精度的一致性提高。性能在中等秩处稳定，最高秩提供的额外收益可忽略不计。最低秩设置在所有测量指标上表现出最弱的性能。

作者在多个标准基准测试上评估了 DVD 方法与最先进的视频和图像深度估计基线。结果表明，DVD 实现了优越的几何保真度和时间一致性，在大多数指标上持续优于生成式和判别式方法。值得注意的是，与大规模竞争对手相比，模型在利用显著更小的训练数据集的同时达到了这些领先结果。DVD 在 KITTI、ScanNet 和 Bonn 数据集上实现了最低的绝对相对误差。该方法在所有四个评估的数据集中实现了最高的阈值精度。DVD 展示了高数据效率，在训练集大小远小于 VDA 基线的情况下取得了顶级结果。

DVD 方法在多个标准数据集上针对最先进的判别式和生成式基线进行了评估，以评估几何保真度和时间一致性。结果表明，DVD 在准确性和效率上持续优于竞争对手，即使在训练数据集显著较小的情况下也能实现顶级性能。额外实验验证，增加重叠大小可以提高精度，但代价是推理时间，而中等 LoRA 秩在不产生收益递减的情况下提供最佳性能。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

11 小时前

Hongfei Zhang Harold Haodong Chen Chenfei Liao Jing He Zixin Zhang Haodong Li Yihao Liang Kanghao Chen Bin Ren Xu Zheng

DVD：基于生成先验的确定性视频深度估计

跳转至 Notebook

摘要

一句话总结

核心贡献

DVD 是首个确定性地将预训练视频扩散模型适配为单 pass 深度回归器的框架。该方法绕过随机采样以解决歧义 - 幻觉困境，同时将语义丰富性与结构稳定性相结合。
三个核心设计包括将扩散时间步重新用作结构锚点，并采用潜流形校正来对运动施加微分约束。全局仿射一致性使得无需复杂的时间对齐即可实现无缝的长视频推理。
大量实验表明，在基准测试中，DVD 实现了最先进的零样本性能，其任务特定数据比领先基线少 163 倍。完整的训练流程已完全发布，以造福开源社区。

引言

方法

参考框架图以查看完整架构的可视化，其中包括训练适配和长视频推理阶段。

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

基于生成先验的确定性视频深度估计

Hongfei Zhang Harold Haodong Chen Chenfei Liao Jing He Zixin Zhang Haodong Li Yihao Liang Kanghao Chen Bin Ren Xu Zheng5 more

DVD：基于生成先验的确定性视频深度估计

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

基于生成先验的确定性视频深度估计

Hongfei Zhang Harold Haodong Chen Chenfei Liao Jing He Zixin Zhang Haodong Li Yihao Liang Kanghao Chen Bin Ren Xu Zheng5 more

DVD：基于生成先验的确定性视频深度估计

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

基于生成先验的确定性视频深度估计

Hongfei Zhang Harold Haodong Chen Chenfei Liao Jing He Zixin Zhang Haodong Li Yihao Liang Kanghao Chen Bin Ren Xu Zheng5 more

DVD：基于生成先验的确定性视频深度估计

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Hongfei Zhang Harold Haodong Chen Chenfei Liao Jing He Zixin Zhang Haodong Li Yihao Liang Kanghao Chen Bin Ren Xu Zheng

Hongfei Zhang Harold Haodong Chen Chenfei Liao Jing He Zixin Zhang Haodong Li Yihao Liang Kanghao Chen Bin Ren Xu Zheng

Hongfei Zhang Harold Haodong Chen Chenfei Liao Jing He Zixin Zhang Haodong Li Yihao Liang Kanghao Chen Bin Ren Xu Zheng