17 天前

ECoDepth:用于单目深度估计的扩散模型有效条件化

Suraj Patni, Aradhye Agarwal, Chetan Arora
ECoDepth:用于单目深度估计的扩散模型有效条件化
摘要

在缺乏视差线索的情况下,基于学习的单图像深度估计(Single Image Depth Estimation, SIDE)模型严重依赖图像中的明暗变化(shading)和上下文信息。尽管这种依赖性带来了方法上的简洁性,但为了实现良好性能,此类模型通常需要在大规模且多样化的数据集上进行训练,而这类数据集的获取极具挑战性。已有研究表明,利用预训练基础模型(如CLIP)生成的嵌入向量,可显著提升多种任务中的零样本迁移能力。受此启发,本文提出利用预训练视觉Transformer(ViT)模型生成的全局图像先验,以提供更为精细的上下文信息。我们主张,经过大规模数据预训练的ViT模型所提取的嵌入向量,相较于传统方法中先生成伪图像描述(pseudo image captions),再通过CLIP模型获取文本嵌入的方式,能够为SIDE任务捕捉到更丰富、更相关的视觉语义信息。基于这一核心思想,我们提出一种基于扩散模型(diffusion backbone)的新型SIDE架构,其输入条件为ViT生成的图像嵌入。实验结果表明,所提出的模型在NYUv2数据集上取得了新的最先进(State-of-the-Art, SOTA)性能,绝对相对误差(Abs Rel)达到0.059,相较于当前最优方法VPD的0.069,提升了14%。在KITTI数据集上,平方相对误差(Sq Rel)为0.139,优于当前SOTA方法GEDepth的0.142,提升2%。此外,在使用NYUv2数据集训练的模型进行零样本迁移测试时,我们在Sun-RGBD、iBims1、DIODE和HyperSim四个基准数据集上,相较NeWCRFs分别实现了(20%、23%、81%、25%)的平均相对提升,显著优于ZoeDepth在相同任务下(16%、18%、45%、9%)的表现。项目主页详见:https://ecodepth-iitd.github.io

ECoDepth:用于单目深度估计的扩散模型有效条件化 | 最新论文 | HyperAI超神经