
摘要
在室内环境中,自监督深度估计相较于室外环境面临至少两个方面的更大挑战:其一,室内序列中不同帧之间的深度范围变化显著,导致深度网络难以提取一致的深度线索;而室外场景中,相机通常可望见天空,最大视距基本保持稳定。其二,室内序列包含大量旋转运动,给位姿估计网络带来显著困难,而室外序列的运动以平移为主,尤其是在KITTI等驾驶数据集上尤为明显。本文针对上述挑战进行了专门分析,并总结出一系列有效的实践方法,以提升自监督单目深度估计在室内环境下的性能。所提出的方法主要包含两个新颖模块:深度因子分解模块与残差位姿估计模块,分别用于应对上述两个核心挑战。通过严谨的消融实验验证了各模块的有效性,并在三个室内数据集(即EuRoC、NYUv2和7-scenes)上展示了当前最先进的性能表现。