16 天前

Metric3D:面向单张图像的零样本度量3D预测

Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu, Kaixuan Wang, Xiaozhi Chen, Chunhua Shen
Metric3D:面向单张图像的零样本度量3D预测
摘要

从图像中重建精确的三维场景是一项长期存在的视觉任务。由于单图像重建问题本身具有病态性(ill-posedness),大多数成熟的方法均基于多视角几何框架。当前最先进的单目度量深度估计方法通常仅支持单一相机模型,且因度量模糊性(metric ambiguity)的存在,无法进行混合数据训练。与此同时,基于大规模混合数据集训练的先进单目方法通过学习仿射不变的深度表示,实现了零样本泛化能力,但其结果无法恢复真实世界的度量尺度。在本工作中,我们揭示了实现零样本单视角度量深度模型的关键在于:大规模数据训练与对多种相机模型所导致的度量模糊性进行有效消除的结合。为此,我们提出了一种标准相机空间变换模块(canonical camera space transformation module),该模块显式地解决了度量模糊问题,可无缝集成至现有的单目深度模型中。借助该模块,单目模型得以在包含超过800万张图像、涵盖数千种相机模型的数据集上稳定训练,从而实现对真实世界中未见相机设置的野外图像的零样本泛化。实验结果表明,我们的方法在7个零样本基准测试中均达到当前最优性能(SOTA),尤其值得一提的是,该方法在第二届单目深度估计挑战赛(2nd Monocular Depth Estimation Challenge)中荣获冠军。本方法首次实现了对随机采集的互联网图像中度量三维结构的准确恢复,为可行的单图像度量重建(single-image metrology)开辟了新路径。该方法的潜在应用价值广泛,可显著提升下游任务的性能——仅需简单接入本模型即可实现性能跃升。例如,我们的模型有效缓解了单目SLAM中的尺度漂移问题(如图1所示),从而生成高质量、具真实尺度的稠密三维地图。代码已开源,地址为:https://github.com/YvanYin/Metric3D。

Metric3D:面向单张图像的零样本度量3D预测 | 最新论文 | HyperAI超神经