
摘要
在本研究中,我们提出了一种高效且准确的单目图像单次3D检测框架。大多数成功的3D检测器都将3D边界框投影到2D边界框的约束作为重要组成部分。然而,2D边界框的四条边仅提供四个约束条件,当2D检测器出现小误差时,性能会显著下降。与这些方法不同,我们的方法预测图像空间中3D边界框的九个透视关键点,然后利用3D和2D视角之间的几何关系来恢复物体在3D空间中的尺寸、位置和方向。通过这种方法,即使关键点估计非常嘈杂,也能稳定地预测物体属性,从而实现小型架构下的快速检测速度。训练我们的方法仅需使用物体的3D属性,无需外部网络或监督数据。我们的方法是首个实现实时单目图像3D检测的系统,并在KITTI基准测试中达到了最先进的性能。代码将在https://github.com/Banconxuan/RTM3D发布。