Depth Pro 深度估计的新里程

Depth Pro:不到一秒即可获得清晰的单目测量深度

一、教程简介

Depth Pro 是由苹果公司于 2024 年 10 月开源的零样本度量单目深度估计的基础模型,相关论文成果为「Depth Pro: Sharp Monocular Metric Depth in Less Than a Second」,作者是 Aleksei Bochkovskii 、 Amaël Delaunoy 、 Hugo Germain 、 Marcel Santos 、 Yichao Zhou 、 Stephan R. Richter 和 Vladlen Koltun 。

Depth Pro 能够从单个 2D 图像快速生成高分辨率的 3D 深度图。这个模型不仅速度快,只需 0.3 秒,而且提供度量级别的深度信息,生成的深度图具有真实的世界尺度。 Depth Pro 不依赖相机的内参数,如焦距,具有很强的通用性。它在边界细节的捕捉上表现出色,能清晰地描绘出头发、植被等细微结构。 Depth Pro 能零样本学习 (zero-shot learning),在没有特定领域数据训练的情况下,能做出准确的预测,使其在增强现实、 3D 重建和图像编辑等多个领域都有广泛的应用潜力。

Depth Pro 的主要功能包括:

  • 零样本度量深度估计:在没有相机内参数的情况下,从单个 2D 图像生成具有绝对尺度的度量深度图。
  • 高分辨率输出:模型能生成高达 2.25 百万像素的深度图,提供丰富的细节。
  • 快速处理:在标准 GPU 上,Depth Pro 在 0.3 秒内生成深度图,适合实时应用。
  • 细节捕捉:特别擅长捕捉细微的结构,如头发、植被等,提高边界的清晰度。

技术原理方面,Depth Pro 基于一个高效的多尺度视觉变换器 (ViT) 架构,捕捉全局图像上下文的同时,精确地识别高分辨率下的精细结构。它结合真实和合成数据集进行训练,实现高精度的度量和细致的边界追踪。 Depth Pro 还从单张图像中估计焦距,在零样本焦距估计领域处于领先地位。此外,它采用两阶段的训练策略,第一阶段旨在学习跨领域的鲁棒特征,第二阶段专注于锐化边界并揭示预测深度图中的细微细节。

效果预览

二、运行步骤

启动容器后点击 API 地址即可进入 Web 界面

高分辨深度图合成

在生成过程中有两个参数可进行选择

  • Auto Rotate:自动旋转
  • Remove Alpha:移除 Alpha

按照要求上传图像或者选择示例

生成结果展示
图 1 高分辨深度图合成演示

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓