6 个月前

摘要

本工作聚焦于零样本单目深度估计任务。近年来，该领域的一项重要进展是利用文本到图像基础模型（如Stable Diffusion）的思想。基础模型能够提供丰富且通用的图像表征，因此仅需少量训练数据即可将其重构为深度估计模型，从而生成高细节度的深度图，并具备良好的泛化能力。然而，现有实现方式由于依赖底层迭代去噪过程，导致在推理阶段效率极低。针对这一问题，本文提出一种全新的实现思路，提出PrimeDepth方法，该方法在保持甚至增强基于扩散模型方法优势的同时，实现了极高的推理效率。我们的核心思想是：通过在Stable Diffusion中执行一次去噪步骤，提取出一个丰富但冻结的图像表征，我们称之为“预图像”（preimage）。该预图像随后被输入一个具有结构归纳偏置的精炼网络，再用于下游深度估计任务。实验验证表明，PrimeDepth的推理速度比当前领先的扩散模型方法Marigold快两个数量级，同时在复杂场景下更具鲁棒性，且在定量指标上略胜一筹。通过该方法，我们显著缩小了与当前最优数据驱动方法Depth Anything之间的差距——后者虽然在定量性能上仍略胜一筹，但其预测的深度图细节较少，且需要20倍于PrimeDepth的标注数据。由于本方法与现有数据驱动方法具有互补性，仅通过简单平均PrimeDepth与Depth Anything的预测结果，即可超越两者各自表现，从而在零样本单目深度估计任务上建立新的最先进水平。未来，数据驱动方法亦有望通过引入我们提出的“预图像”表征进一步提升性能。

源 PDF 查看代码