
摘要
我们提出了一种基于成本体的神经网络,用于从多视图图像中推断深度。我们证明了以粗到精的方式构建成本体金字塔,而不是在固定分辨率下构建成本体,可以实现一个紧凑、轻量级的网络结构,并且能够推断出高分辨率的深度图,从而获得更好的重建效果。为此,我们首先在图像最粗糙的分辨率上,通过对整个深度范围内平行平面进行均匀采样来构建成本体。然后,基于当前的深度估计,我们在像素级深度残差上迭代地构建新的成本体,以执行深度图的精细化。尽管我们的方法与Point-MVSNet在逐次预测和细化深度方面有相似之处,但我们展示了在成本体金字塔上工作可以比在3D点上的Point-MVSNet实现更加紧凑且高效的网络结构。我们进一步详细分析了(残差)深度采样与图像分辨率之间的关系,这为构建紧凑的成本体金字塔提供了一个原则。基准数据集上的实验结果表明,我们的模型可以比现有最先进方法快6倍,并且具有类似的性能表现。代码可在https://github.com/JiayuYANG/CVP-MVSNet 获取。