16 天前
零样本度量深度预测:基于视场条件化扩散模型
Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet

摘要
尽管单目深度估计方法在标准基准测试上取得了显著进展,但零样本度量深度估计问题仍未解决。主要挑战包括室内与室外场景的联合建模——这两类场景在RGB图像与深度分布上通常存在显著差异,以及由于相机内参未知导致的深度尺度模糊性。近期研究提出了针对室内与室外场景联合建模的专用多头架构。相比之下,本文提出一种通用的、任务无关的扩散模型,并引入多项创新:采用对数尺度深度参数化,以实现对室内与室外场景的统一建模;通过引入视场角(Field-of-View, FOV)作为条件输入来缓解尺度模糊问题;并在训练过程中对FOV进行合成增强,以提升模型对训练数据中有限相机内参之外的泛化能力。此外,通过采用比常规更丰富的训练数据混合策略,以及设计高效的扩散参数化方式,本文提出的DMD(Diffusion for Metric Depth)方法在仅使用少量去噪步骤的情况下,相较于当前最优方法(SOTA),在零样本室内场景上实现了相对误差(REL)25%的降低,在零样本室外场景上实现了33%的降低。更多详情请参见:https://diffusion-vision.github.io/dmd