
摘要
单目3D物体检测旨在从2D输入图像中提取物体的3D位置和属性。这是一个病态问题,主要难点在于深度无关摄像头造成的信息损失。传统方法通常从空间中采样3D边界框,并推断目标物体与每个边界框之间的关系,但在3D空间中有效样本的概率相对较低。为了提高采样的效率,我们提出从初始预测开始,逐步向真实值逼近,每次仅改变一个3D参数。这需要设计一种策略,在经过若干步骤后获得奖励,因此我们采用了强化学习来优化该策略。所提出的框架——强化轴向精炼网络(Reinforced Axial Refinement Network, RAR-Net)——作为后处理阶段,可以自由集成到现有的单目3D检测方法中,并在KITTI数据集上以较小的额外计算成本提升性能。