
摘要
我们提出了RoarNet,这是一种从二维图像和三维激光雷达点云中进行三维物体检测的新方法。基于以PointNet作为主干网络的两阶段物体检测框架,我们提出了一些创新性的想法来提升三维物体检测的性能。我们的方法的第一部分,即RoarNet_2D,从单目图像中估计物体的三维姿态,这一步骤可以大致确定需要进一步检查的位置,并生成多个几何上可行的候选区域。这一过程显著缩小了可行的三维搜索范围,否则在庞大的搜索空间中处理三维点云将需要大量的计算资源。接下来,第二部分RoarNet_3D接收这些候选区域,并通过递归的方式进行深入推理,最终确定物体的姿态。受PointNet启发,RoarNet_3D直接处理三维点云数据而不会造成任何数据损失,从而实现精确检测。我们在KITTI(一个三维物体检测基准)上对我们的方法进行了评估。结果显示,RoarNet在公开可用的方法中表现出色,优于当前最先进的技术。值得注意的是,即使在激光雷达和相机不同步的情况下,RoarNet仍然超越了最先进的方法,这对于实际驾驶环境具有重要意义。RoarNet使用TensorFlow实现,并提供了预训练模型供公众使用。