
摘要
我们提出了一种基于单张图像进行深度估计的新架构。该架构以广泛应用于各类密集回归任务的主流编码器-解码器结构为基础。我们在AdaBins的基础上进行改进,该方法能够估计输入图像的全局深度分布,并在此基础上对架构进行了两方面的优化:其一,不再预测全局深度分布,而是针对每个像素预测其局部邻域的深度分布;其二,不再仅在解码器末端进行深度分布预测,而是将解码器的所有层级均纳入预测过程。我们称这一新架构为LocalBins。实验结果表明,在NYU-Depth V2数据集上,该方法在所有评估指标上均显著优于当前最先进水平。相关代码与预训练模型将公开发布。