
摘要
最先进的3D物体检测器通常严重依赖激光雷达(LiDAR)传感器,因为基于图像的方法和基于激光雷达的方法之间存在较大的性能差距。这种差距是由在3D场景中形成预测表示的方式所引起的。我们提出的方法称为深度立体几何网络(Deep Stereo Geometry Network,DSGN),通过在可微分的体素表示——3D几何体积上检测3D物体,显著缩小了这一差距。该表示方法有效地编码了3D规则空间中的几何结构。利用这一表示,我们可以同时学习深度信息和语义线索。首次,我们提供了一种简单且有效的单阶段立体视觉3D检测流水线,能够在端到端的学习过程中联合估计深度并检测3D物体。我们的方法在平均精度(AP)方面比之前的立体视觉3D检测器高出约10%,甚至在KITTI 3D物体检测排行榜上与几种基于激光雷达的方法达到了相当的性能水平。我们的代码已公开发布在 https://github.com/chenyilun95/DSGN。