
摘要
在本文中,我们提出了一种用于单目3D目标检测的深度拟合度评分网络,旨在对候选框与目标之间的拟合度进行明确评分。与大多数现有的单目框架通过严格约束来获取3D位置不同,我们的方法通过测量投影3D候选框与目标之间的视觉拟合度来实现高精度定位。首先,我们使用基于锚点的方法回归目标的尺寸和方向,以便构建合适的3D候选框。我们提出了FQNet(Fitting Quality Network),该网络仅基于2D线索即可推断出3D候选框与目标之间的3D IoU(Intersection over Union)。因此,在检测过程中,我们在3D空间中采样大量候选框,并分别将这些3D边界框投影到2D图像上。通过简单地探索候选框与目标之间的空间重叠情况(以FQNet输出的3D IoU评分为形式),可以挑选出最佳的候选框。在KITTI数据集上的实验验证了我们框架的有效性。