
摘要
本文针对室内场景下的无监督深度估计任务展开研究。该任务极具挑战性,主要原因是室内场景中存在大量无纹理区域,这些区域在通常用于室外环境的无监督深度估计框架中极易干扰优化过程。即便在对这些无纹理区域进行掩码处理后,现有方法的性能依然不尽如人意。本文认为,性能不佳的根本原因在于基于点的匹配缺乏判别能力。为此,我们提出P$^2$Net。首先,我们提取局部梯度较大的关键点,并以每个点为中心的图像块作为其特征表示。随后,在这些图像块上定义多视角一致性损失,显著提升了网络训练的鲁棒性。此外,考虑到室内场景中的无纹理区域(如墙面、地面、天花板等)通常对应于平面结构,我们引入超像素作为平面先验,强制网络在每个超像素区域内预测的深度能够被一个平面良好拟合。在NYUv2和ScanNet数据集上的大量实验表明,所提出的P$^2$Net在性能上显著优于现有方法。代码已开源,地址为:\url{https://github.com/svip-lab/Indoor-SfMLearner}。