15 天前
PolarFormer:基于极坐标变换器的多相机3D目标检测
Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang

摘要
在自动驾驶领域,3D目标检测旨在推理场景中目标的“是什么”(what)以及“在哪里”(where),即在三维空间中定位并识别感兴趣的物体。受传统2D目标检测范式的影响,现有方法通常采用标准的笛卡尔坐标系(Cartesian coordinate system),其坐标轴相互垂直。然而,我们认为这种坐标系统并不契合车辆自身视角的本质特性——因为车载摄像头所感知的环境具有楔形(wedge-shaped)的空间结构,这是由成像几何特性决定的,其坐标轴呈径向分布(非正交)。因此,本文主张采用极坐标系(Polar coordinate system),并提出一种新型的极坐标变换器模型——PolarFormer,用于仅以多摄像头2D图像为输入,在鸟瞰图(Bird's-Eye-View, BEV)空间中实现更精确的3D目标检测。具体而言,我们设计了一种基于交叉注意力机制的极坐标检测头(Polar detection head),该结构不受输入网格形状的限制,能够有效处理不规则的极坐标网格。针对极坐标系中沿径向距离维度上物体尺度变化无约束的问题,我们进一步引入了一种多尺度极坐标表示学习策略,以增强模型对尺度多样性的适应能力。最终,我们的模型能够通过序列到序列(sequence-to-sequence)的方式,有选择性地关注对应图像观测,充分利用极坐标表示的几何约束,实现高效且精准的特征融合与推理。在nuScenes数据集上的大量实验表明,所提出的PolarFormer在3D目标检测性能上显著优于当前最先进的方法,充分验证了极坐标建模在自动驾驶感知任务中的有效性与优越性。