16 天前
UniDepth:通用单目度量深度估计
Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segu, Siyuan Li, Luc Van Gool, Fisher Yu

摘要
精确的单目度量深度估计(Monocular Metric Depth Estimation, MMDE)对于解决三维感知与建模中的下游任务至关重要。然而,近期MMDE方法所展现出的卓越精度往往局限于其训练数据分布的域内。即便面对中等程度的域间差异,这些方法也难以实现有效泛化,严重制约了其实际应用潜力。为此,本文提出一种新模型UniDepth,能够仅凭单张图像,在跨域场景下重建度量级三维结构。与现有MMDE方法不同,UniDepth在推理阶段直接从输入图像中预测度量级三维点,无需任何额外信息,旨在实现通用且灵活的MMDE解决方案。具体而言,UniDepth引入了一种自提示可调的相机模块,用于预测密集的相机表征,以条件化深度特征。此外,该模型采用伪球面输出表示形式,有效解耦了相机与深度表征,提升了建模的独立性与鲁棒性。为进一步增强模型的泛化能力,我们设计了一种几何不变性损失(geometric invariance loss),促使相机提示下的深度特征在不同域间保持不变性。在十组不同数据集上进行的零样本(zero-shot)评估结果一致表明,UniDepth在跨域场景下均显著优于现有方法,甚至在部分情况下超越了那些在测试域上直接训练的模型。相关代码与模型已开源,地址为:https://github.com/lpiccinelli-eth/unidepth