
摘要
近年来,卷积神经网络(CNNs)在学习许多计算机视觉任务方面取得了越来越大的成功,包括光流和立体匹配等密集估计问题。然而,这些任务的联合预测,即场景流,传统上一直依赖于基于基本假设的缓慢经典方法,这些方法难以泛化。本文提出的工作通过引入PWOC-3D,一种紧凑的CNN架构,在端到端监督设置下从立体图像序列中预测场景流,高效地克服了这些缺点(在速度和准确性方面)。此外,大运动和遮挡是场景流估计中的众所周知的问题。PWOC-3D采用了专门的设计决策来显式建模这些挑战。在这方面,我们提出了一种新的自监督策略,可以从图像中预测遮挡(无需任何标记的遮挡数据进行学习)。利用这些构造,我们的网络在KITTI基准测试和具有挑战性的FlyingThings3D数据集上取得了具有竞争力的结果。特别是在KITTI上,PWOC-3D在端到端深度学习方法中排名第二,其参数量比表现最佳的方法少48倍。