2 个月前
BEVFormer:通过时空Transformer从多相机图像中学习鸟瞰图表示
Li, Zhiqi ; Wang, Wenhai ; Li, Hongyang ; Xie, Enze ; Sima, Chonghao ; Lu, Tong ; Yu, Qiao ; Dai, Jifeng

摘要
三维视觉感知任务,包括基于多摄像头图像的三维检测和地图分割,对于自动驾驶系统至关重要。在本研究中,我们提出了一种新的框架,称为BEVFormer,该框架通过使用时空变换器学习统一的鸟瞰图(BEV)表示来支持多种自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形状BEV查询与空间和时间域进行交互,从而利用空间和时间信息。为了聚合空间信息,我们设计了空间交叉注意力机制,每个BEV查询从不同摄像头视图中的感兴趣区域提取空间特征。对于时间信息,我们提出了时间自注意力机制,以递归方式融合历史BEV信息。我们的方法在nuScenes测试集上的NDS指标达到了新的最先进水平56.9%,比之前的最佳方法高出9.0个百分点,并且性能与基于激光雷达(LiDAR)的基线相当。此外,我们还展示了BEVFormer显著提高了低能见度条件下速度估计的准确性和目标检测的召回率。代码可在以下网址获取:https://github.com/zhiqi-li/BEVFormer。