
摘要
本文提出了一种用于多视角三维目标检测的位置嵌入转换方法(Position Embedding Transformation, PETR)。PETR 将三维坐标的位置信息编码至图像特征中,生成具备三维位置感知能力的特征表示。通过该特征,对象查询(object query)能够感知三维位置信息,从而实现端到端的三维目标检测。在标准的 nuScenes 数据集上,PETR 取得了当前最优的性能表现(NDS 达到 50.4%,mAP 达到 44.1%),并在该基准测试中位列第一。该方法可作为未来研究中一个简洁而强大的基线模型。代码已开源,地址为:\url{https://github.com/megvii-research/PETR}。