
摘要
单目3D目标检测是自动驾驶车辆中的关键问题,相较于典型的多传感器系统,其具有配置简单的优势。单目3D检测的主要挑战在于准确预测目标的深度信息,由于缺乏直接的距离测量能力,深度必须通过目标和场景线索进行推断。尽管已有诸多方法尝试直接估计深度以辅助3D检测,但由于深度估计不准确,整体性能仍受限。本文提出一种新方法——分类深度分布网络(Categorical Depth Distribution Network, CaDDN),该方法为每个像素预测一个分类化的深度分布,从而将丰富的上下文特征信息投影至三维空间中对应的深度区间。随后,我们采用计算高效的鸟瞰图(bird's-eye-view)投影与单阶段检测器,生成最终的三维边界框输出。CaDDN被设计为一种完全可微的端到端框架,实现深度估计与目标检测的联合优化。我们在KITTI 3D目标检测基准上验证了所提方法,结果在已发表的单目方法中排名第一。此外,我们首次在新发布的Waymo Open Dataset上提供了单目3D检测的实验结果。相关代码已公开发布,供学术界和工业界使用。