
摘要
我们提出了一种用于从非结构化视频序列中进行单目深度和相机运动估计的无监督学习框架。通过使用视图合成任务作为监督信号,同时训练深度估计网络和相机姿态估计网络来实现这一目标。因此,在训练过程中,这两个网络通过视图合成目标相互耦合,但在测试时可以独立应用。在KITTI数据集上的实证评估证明了我们方法的有效性:1)单目深度估计的表现与使用真实姿态或深度进行训练的有监督方法相当;2)在相似的输入条件下,姿态估计的表现优于已建立的SLAM系统。
我们提出了一种用于从非结构化视频序列中进行单目深度和相机运动估计的无监督学习框架。通过使用视图合成任务作为监督信号,同时训练深度估计网络和相机姿态估计网络来实现这一目标。因此,在训练过程中,这两个网络通过视图合成目标相互耦合,但在测试时可以独立应用。在KITTI数据集上的实证评估证明了我们方法的有效性:1)单目深度估计的表现与使用真实姿态或深度进行训练的有监督方法相当;2)在相似的输入条件下,姿态估计的表现优于已建立的SLAM系统。