2 个月前
PETRv2:多相机图像三维感知的统一框架
Liu, Yingfei ; Yan, Junjie ; Jia, Fan ; Li, Shuailin ; Gao, Aqi ; Wang, Tiancai ; Zhang, Xiangyu ; Sun, Jian

摘要
本文提出了一种统一的多视角图像三维感知框架——PETRv2。基于PETR,PETRv2探索了时间建模的有效性,通过利用前几帧的时间信息来提升三维目标检测的性能。具体而言,我们扩展了PETR中的三维位置嵌入(3D PE)以实现时间建模。3D PE在不同帧之间实现了目标位置的时间对齐。为进一步提高3D PE的数据适应性,引入了一种特征引导的位置编码器。为了支持多任务学习(例如BEV分割和三维车道检测),PETRv2通过引入特定任务的查询提供了一个简单而有效的解决方案,这些查询在不同的空间中初始化。PETRv2在三维目标检测、BEV分割和三维车道检测方面达到了最先进的性能。我们还对PETR框架进行了详细的鲁棒性分析。我们希望PETRv2能够成为三维感知领域的一个强大基线模型。代码可在以下网址获取:\url{https://github.com/megvii-research/PETR}。