
摘要
本文提出了一种基于端到端深度学习的框架,用于从单张单目图像中进行三维物体检测。该框架引入了一种深度卷积神经网络,实现二维与三维物体检测的联合处理。首先,通过区域建议网络生成二维区域建议;随后,在这些建议区域内学习共享特征,以预测物体类别概率、二维边界框、方向、尺寸以及三维空间位置。我们设计了一个独立模块用于估计视差,并从计算得到的点云中提取特征。由此,原始图像与点云的特征将在多个层级上进行融合,从而实现高精度的三维定位。此外,所估计的视差还被用于前视图特征编码,以增强输入图像,该过程可视为一种输入级特征融合。所提出的算法仅需单张RGB图像作为输入,即可端到端地直接输出二维与三维物体检测结果。在具有挑战性的KITTI基准测试上的实验结果表明,该方法在仅使用单目图像的情况下,显著优于现有的最先进方法。