
摘要
低成本的自主智能体,包括自动驾驶车辆,主要采用单目三维目标检测技术来感知周围环境。本文研究了用于生成后续任务所需三维中间表征的方法。例如,所生成的三维特征可作为三维检测、端到端预测和/或规划等任务的输入,这些任务通常需要鸟瞰图(Bird’s-Eye-View, BEV)特征表示。在研究过程中,我们发现,以往方法在构建三维表征时,未能保持隐空间中物体的隐式姿态(尤其是方向)与欧几里得空间中显式观测姿态之间的一致性,这一缺陷会显著影响模型性能。为解决该问题,本文提出一种新型单目检测方法,该方法是首个主动关注姿态一致性、并旨在显式保障隐式特征与显式特征之间姿态一致性的方法。此外,我们引入了一种局部射线注意力机制(local ray attention),能够高效地将图像特征映射至精确的三维空间位置上的体素(voxels)。第三,我们设计了一种手工构造的高斯位置编码函数,其性能优于传统的正弦编码函数,同时保持了编码函数的连续性优势。实验结果表明,所提方法在当前最先进的三维中间表征方法基础上,性能提升了3.15%。在Kitti数据集的单目三维检测与鸟瞰图检测基准测试中,本方法在提交结果时位列所有已报告单目方法中的第一名。