15 天前

PrimeDepth:基于稳定扩散预图像的高效单目深度估计

Denis Zavadski, Damjan Kalšan, Carsten Rother
PrimeDepth:基于稳定扩散预图像的高效单目深度估计
摘要

本工作聚焦于零样本单目深度估计任务。近年来,该领域的一项重要进展是利用文本到图像基础模型(如Stable Diffusion)的思想。基础模型能够提供丰富且通用的图像表征,因此仅需少量训练数据即可将其重构为深度估计模型,从而生成高细节度的深度图,并具备良好的泛化能力。然而,现有实现方式由于依赖底层迭代去噪过程,导致在推理阶段效率极低。针对这一问题,本文提出一种全新的实现思路,提出PrimeDepth方法,该方法在保持甚至增强基于扩散模型方法优势的同时,实现了极高的推理效率。我们的核心思想是:通过在Stable Diffusion中执行一次去噪步骤,提取出一个丰富但冻结的图像表征,我们称之为“预图像”(preimage)。该预图像随后被输入一个具有结构归纳偏置的精炼网络,再用于下游深度估计任务。实验验证表明,PrimeDepth的推理速度比当前领先的扩散模型方法Marigold快两个数量级,同时在复杂场景下更具鲁棒性,且在定量指标上略胜一筹。通过该方法,我们显著缩小了与当前最优数据驱动方法Depth Anything之间的差距——后者虽然在定量性能上仍略胜一筹,但其预测的深度图细节较少,且需要20倍于PrimeDepth的标注数据。由于本方法与现有数据驱动方法具有互补性,仅通过简单平均PrimeDepth与Depth Anything的预测结果,即可超越两者各自表现,从而在零样本单目深度估计任务上建立新的最先进水平。未来,数据驱动方法亦有望通过引入我们提出的“预图像”表征进一步提升性能。

PrimeDepth:基于稳定扩散预图像的高效单目深度估计 | 最新论文 | HyperAI超神经