
摘要
绝大多数先前的无真实深度监督的单目深度估计方法聚焦于驾驶场景。我们发现,此类方法在未见过的复杂室内场景中泛化能力较差,尤其是在近场区域物体杂乱无章、任意分布的情况下。为提升模型鲁棒性,我们提出一种结构蒸馏(structure distillation)方法,通过一个现成的相对深度估计算法来学习结构先验,该算法虽不提供度量信息,但能生成具有结构一致性的深度图。通过将结构蒸馏与另一分支相结合,后者利用左右一致性学习度量信息,我们实现了对通用室内场景的结构化且具备度量意义的深度估计,并支持实时推理。为促进模型学习与评估,我们构建了SimSIN数据集——一个基于仿真生成的包含数千个场景的数据集,以及UniSIN数据集——包含约500个真实扫描序列的通用室内环境数据集。我们在模拟到真实(sim-to-real)和真实到真实(real-to-real)两种设置下进行实验,验证了所提方法在深度估计性能上的提升,以及在下游应用中的有效性。本研究从方法、数据集构建到实际应用,提供了系统性、完整的探索与分析。