
摘要
三维目标检测在自动驾驶辅助系统等众多实际应用场景中具有重要意义。单目三维检测作为基于图像方法中的代表性通用设置,相较于依赖激光雷达(LiDAR)的传统方案更具成本优势,但其性能仍不尽如人意。本文首次对这一问题进行了系统性研究。我们发现,当前的单目三维检测可被简化为实例深度估计问题:由于实例深度估计不准确,导致其他三维属性预测无法有效提升整体检测性能。此外,现有方法通常基于孤立的实例或像素直接估计深度,忽略了不同物体之间的几何关联关系。为此,我们构建了预测物体间的几何关系图,并利用该图辅助深度估计。由于在这一病态设定下,每个实例的初始深度估计往往存在较大误差,我们引入了概率化表示以捕捉预测不确定性,从而为识别高置信度预测结果提供重要依据,并进一步指导深度信息的传播。尽管核心思想简洁,但所提出的PGD方法在KITTI和nuScenes基准测试中均取得了显著性能提升,成为所有仅使用单目视觉方法中的最佳方案,同时保持了实时推理效率。代码与模型将开源至 https://github.com/open-mmlab/mmdetection3d。