11 天前

Depth Anything:释放大规模无标签数据的潜力

Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
Depth Anything:释放大规模无标签数据的潜力
摘要

本文提出Depth Anything,一种高效实用的鲁棒单目深度估计解决方案。我们并未追求新颖的技术模块,而是致力于构建一个简单却强大的基础模型,能够应对任意图像在任何场景下的深度估计任务。为此,我们设计了一套数据引擎,用于收集并自动标注大规模未标注数据(约6200万张),显著扩展了数据覆盖范围,从而有效降低模型的泛化误差。我们探索了两种简单但高效的数据扩展策略,使大规模数据训练成为可能:其一,利用数据增强工具构建更具挑战性的优化目标,促使模型主动挖掘额外的视觉知识,获得更鲁棒的特征表示;其二,引入辅助监督机制,引导模型从预训练编码器中继承丰富的语义先验信息。我们对模型的零样本泛化能力进行了全面评估,涵盖六个公开数据集及随机拍摄的图像,结果展现出出色的泛化性能。进一步地,通过在NYUv2和KITTI数据集的度量深度信息上进行微调,模型取得了新的SOTA(State-of-the-Art)水平。此外,我们所构建的更优深度模型也显著提升了深度条件控制网络(depth-conditioned ControlNet)的性能。相关模型已开源,访问地址为:https://github.com/LiheYoung/Depth-Anything。

Depth Anything:释放大规模无标签数据的潜力 | 最新论文 | HyperAI超神经