
摘要
地平线是计算机视觉中许多图像处理和场景理解任务的重要几何特征。例如,在自动驾驶车辆导航或驾驶员辅助系统中,它可以用于改进三维重建以及动态环境的语义解释。尽管针对单幅图像的地平线检测算法和数据集已经存在,但基于视频序列的地平线估计问题尚未受到广泛关注。在本文中,我们展示了卷积神经网络如何利用视频序列中的时间一致性来提高地平线估计的精度并减少其方差。为此,我们提出了一种具有改进残差卷积LSTM的新CNN架构,以实现时间一致性的地平线估计。我们还提出了一种自适应损失函数,该函数确保了训练的稳定性及结果的准确性。此外,我们扩展了KITTI数据集,其中包含72个视频序列中共43699幅图像的精确地平线标签。全面评估表明,所提出的 方法在性能上始终优于现有方法。