摘要

我们提出 Metric3D v2，这是一种用于从单张图像实现零样本（zero-shot）度量深度与表面法向量估计的几何基础模型，对于实现度量三维重建具有重要意义。尽管深度与法向量在几何上密切相关且高度互补，但二者各自面临不同的挑战。当前最先进的单目深度估计方法通过学习仿射不变的深度表示实现零样本泛化，但无法恢复真实世界中的度量尺度；而当前最先进的法向量估计方法由于缺乏大规模带标注数据，其零样本性能仍受限。为解决上述问题，我们分别提出了针对度量深度估计与表面法向量估计的创新方案。在度量深度估计方面，我们发现，实现零样本单视角模型的关键在于消除来自多种相机模型及大规模数据训练所带来的度量模糊性。为此，我们提出了一种规范相机空间变换模块（canonical camera space transformation module），该模块显式地解决了度量模糊问题，可无缝集成至现有单目深度模型中。在表面法向量估计方面，我们设计了一种深度-法向联合优化模块，能够从度量深度中蒸馏出多样化数据知识，使法向量估计器的学习不再局限于法向量标签本身。结合上述模块，我们的深度-法向模型可在来自数千种不同相机型号、包含多种类型标注的超过1600万张图像上稳定训练，从而实现对未见过的、真实场景中复杂相机设置下的图像的零样本泛化。本方法能够在随机采集的互联网图像上准确恢复具有真实度量意义的三维结构，为实现可信的单图像度量几何重建开辟了新路径。项目主页：https://JUGGHM.github.io/Metric3Dv2

源 PDF