HyperAIHyperAI

Command Palette

Search for a command to run...

BEVFormer:通过时空Transformer从多相机图像中学习鸟瞰图表示

Li Zhiqi ; Wang Wenhai ; Li Hongyang ; Xie Enze ; Sima Chonghao ; Lu Tong ; Yu Qiao ; Dai Jifeng

摘要

三维视觉感知任务,包括基于多摄像头图像的三维检测和地图分割,对于自动驾驶系统至关重要。在本研究中,我们提出了一种新的框架,称为BEVFormer,该框架通过使用时空变换器学习统一的鸟瞰图(BEV)表示来支持多种自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形状BEV查询与空间和时间域进行交互,从而利用空间和时间信息。为了聚合空间信息,我们设计了空间交叉注意力机制,每个BEV查询从不同摄像头视图中的感兴趣区域提取空间特征。对于时间信息,我们提出了时间自注意力机制,以递归方式融合历史BEV信息。我们的方法在nuScenes测试集上的NDS指标达到了新的最先进水平56.9%,比之前的最佳方法高出9.0个百分点,并且性能与基于激光雷达(LiDAR)的基线相当。此外,我们还展示了BEVFormer显著提高了低能见度条件下速度估计的准确性和目标检测的召回率。代码可在以下网址获取:https://github.com/zhiqi-li/BEVFormer


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供