
摘要
基于立体相机的三维目标检测是计算机视觉中的一个重要问题,特别是在没有激光雷达(LiDAR)的低成本自主移动机器人中尤为重要。目前,大多数性能最佳的立体三维目标检测框架都是基于从视差估计进行密集深度重建的方法,这使得它们在计算上非常昂贵。为了实现双目图像视觉检测在实际场景中的部署,我们退一步从基于二维图像的目标检测框架中汲取灵感,并结合立体特征对其进行增强。我们将实时单阶段2D/3D目标检测器的知识和推理结构融入其中,并引入了一个轻量级的立体匹配模块。我们提出的框架YOLOStereo3D在一个单GPU上进行训练,并且运行速度超过每秒十帧。该框架在不使用激光雷达数据的情况下,展示了与最先进的立体三维检测框架相当的性能。代码将在https://github.com/Owen-Liuyuxuan/visualDet3D发布。