
摘要
我们提出了一种用于自动驾驶的3D目标检测方法,该方法充分利用了立体图像中的稀疏和密集、语义和几何信息。我们的方法称为Stereo R-CNN,扩展了Faster R-CNN以处理立体输入,从而同时在左图和右图中检测并关联目标。我们在立体区域提议网络(Region Proposal Network, RPN)之后添加了额外的分支,用于预测稀疏关键点、视点和目标尺寸,这些信息与2D左右边界框结合,计算出一个粗略的3D目标边界框。然后,我们通过基于区域的光度对齐方法利用左右感兴趣区域(Region of Interest, RoI)来恢复精确的3D边界框。我们的方法不需要深度输入和3D位置监督,然而其性能超过了所有现有的完全监督图像方法。在具有挑战性的KITTI数据集上的实验表明,我们的方法在3D检测和3D定位任务上均优于当前最先进的基于立体的方法,平均精度(Average Precision, AP)提高了约30%。代码已发布在 https://github.com/HKUST-Aerial-Robotics/Stereo-RCNN。