
摘要
利用单个RGB相机估计环境中物体的三维位置与朝向,是低成本城市自动驾驶与移动机器人领域中一项关键且具有挑战性的任务。现有大多数算法基于二维与三维对应关系中的几何约束,其根源可追溯至通用的6D物体位姿估计方法。本文首先揭示了地面平面在驾驶场景中三维检测任务的深度推理过程中所提供的额外线索。基于这一观察,我们进一步优化了三维锚框(3D anchors)的处理方式,并提出一种新型神经网络模块,以充分挖掘并利用该特定应用场景下的先验知识。在此基础上,我们设计了一种高效的神经网络架构,集成了上述模块,用于实现三维物体检测。此外,我们还通过一个专为单目深度估计设计的神经网络,验证了所提模块的有效性。两个所提出的网络分别在KITTI三维物体检测与深度估计基准测试中取得了当前最优的性能表现。相关代码将发布于:https://www.github.com/Owen-Liuyuxuan/visualDet3D。