
摘要
在单目3D目标检测中,实现3D空间中的目标定位是一项极具挑战性的任务。近年来,6自由度(6DoF)姿态估计的进展表明,通过预测图像与物体3D模型之间的密集2D-3D对应关系,并利用透视n点(Perspective-n-Point, PnP)算法估计物体姿态,可实现卓越的定位精度。然而,这类方法通常依赖于真实物体几何结构的标注信息进行训练,而在真实室外场景中获取此类几何真值数据极为困难。为解决这一问题,本文提出一种名为MonoRUn的新检测框架,该框架在仅需简单3D边界框标注的情况下,能够以自监督方式学习密集对应关系与物体几何结构。为回归与像素相关的3D物体坐标,我们引入了一种具备不确定性感知能力的区域重建网络。在自监督训练过程中,预测的3D坐标被投影回图像平面,同时提出一种鲁棒的KL损失函数,以最小化加权不确定性下的重投影误差。在测试阶段,我们通过将网络预测的不确定性传播至所有下游模块,进一步提升性能。具体而言,利用不确定性驱动的PnP算法来估计物体姿态及其协方差矩阵。大量实验结果表明,所提方法在KITTI基准测试上显著优于当前最先进的技术。