摘要

我们提出了一种从单幅图像中进行三维物体检测和姿态估计的方法。与当前仅回归物体三维方向的技术不同，我们的方法首先使用深度卷积神经网络回归相对稳定的三维物体属性，然后将这些估计值与由二维物体边界框提供的几何约束相结合，生成完整的三维边界框。第一个网络输出通过一种新颖的混合离散-连续损失（hybrid discrete-continuous loss）来估计三维物体的方向，该方法显著优于L2损失。第二个输出则回归三维物体的尺寸，这些尺寸相对于其他属性变化较小，且对于许多类型的物体可以进行预测。这些估计值与二维边界框对平移施加的几何约束相结合，使我们能够恢复稳定且准确的三维物体姿态。我们在具有挑战性的KITTI物体检测基准上评估了我们的方法，不仅在官方的三维方向估计指标上进行了测试，还评估了所获得的三维边界框的准确性。尽管概念上较为简单，但我们的方法在利用语义分割、实例级分割、平坦地面先验和平面子类别检测等更为复杂和计算成本较高的方法中表现优异。此外，我们的离散-连续损失在Pascal 3D+数据集上的三维视角估计中也产生了最先进的结果。

源 PDF