5 个月前

无需传感器的深度预测:利用结构从单目视频中进行无监督学习

Casser, Vincent ; Pirk, Soeren ; Mahjourian, Reza ; Angelova, Anelia
无需传感器的深度预测:利用结构从单目视频中进行无监督学习
摘要

从RGB输入中学习预测场景深度对于室内和室外机器人导航都是一个具有挑战性的任务。在本研究中,我们探讨了无需监督的场景深度和机器人自我运动的学习方法,其中监督信号由单目视频提供,因为相机是最便宜、限制最少且最普遍的机器人传感器。以往在无监督图像到深度学习领域的研究已经建立了强大的基线模型。我们提出了一种新颖的方法,该方法能够生成更高品质的结果,建模移动物体,并且证明了其可以在不同数据域之间进行迁移,例如从室外到室内场景。主要思想是在学习过程中引入几何结构,通过建模场景及各个物体;相机自我运动和物体运动均从单目视频输入中学习。此外,还引入了一种在线精炼方法,以实时适应未知领域。所提出的这种方法超越了所有现有的最先进方法,包括那些通过学习光流来处理运动的方法。我们的结果在质量上可与使用立体视觉作为监督信号的方法相媲美,并显著提高了包含大量物体运动的场景和数据集中的深度预测精度。该方法具有实际应用价值,因为它允许模型在不同环境之间的迁移,即将在城市场景中收集的数据训练的模型应用于室内导航设置。本文相关的代码可在https://sites.google.com/view/struct2depth获取。