
摘要
我们提出了一种基于单个RGB图像的高效3D目标检测框架,适用于自动驾驶场景。我们的研究重点在于从二维图像中提取潜在的三维信息,并在没有点云或立体数据的情况下确定目标的精确三维边界框。借助现成的2D目标检测器,我们提出了一种巧妙的方法,能够高效地为每个预测的2D边界框生成一个粗略的立方体。该粗略立方体具有足够的精度,可以引导我们通过细化来确定目标的三维边界框。与以往仅使用从2D边界框中提取的特征进行边界框细化的方法不同,我们利用可见表面的视觉特征探索了目标的三维结构信息。这些来自表面的新特征被用于消除仅使用2D边界框带来的表示模糊问题。此外,我们研究了不同的3D边界框细化方法,并发现带有质量感知损失的质量分类公式比回归方法具有更好的性能。在KITTI基准测试中,我们的方法在基于单个RGB图像的3D目标检测方面超越了当前最先进的方法。