8 个月前

计算机视觉

计算机视觉

Li Zhiqi ; Wang Wenhai ; Li Hongyang ; Xie Enze ; Sima Chonghao ; Lu Tong ; Yu Qiao ; Dai Jifeng

摘要

三维视觉感知任务，包括基于多摄像头图像的三维检测和地图分割，对于自动驾驶系统至关重要。在本研究中，我们提出了一种新的框架，称为BEVFormer，该框架通过使用时空变换器学习统一的鸟瞰图（BEV）表示来支持多种自动驾驶感知任务。简而言之，BEVFormer通过预定义的网格形状BEV查询与空间和时间域进行交互，从而利用空间和时间信息。为了聚合空间信息，我们设计了空间交叉注意力机制，每个BEV查询从不同摄像头视图中的感兴趣区域提取空间特征。对于时间信息，我们提出了时间自注意力机制，以递归方式融合历史BEV信息。我们的方法在nuScenes测试集上的NDS指标达到了新的最先进水平56.9%，比之前的最佳方法高出9.0个百分点，并且性能与基于激光雷达（LiDAR）的基线相当。此外，我们还展示了BEVFormer显著提高了低能见度条件下速度估计的准确性和目标检测的召回率。代码可在以下网址获取：https://github.com/zhiqi-li/BEVFormer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Li Zhiqi ; Wang Wenhai ; Li Hongyang ; Xie Enze ; Sima Chonghao ; Lu Tong ; Yu Qiao ; Dai Jifeng

摘要

三维视觉感知任务，包括基于多摄像头图像的三维检测和地图分割，对于自动驾驶系统至关重要。在本研究中，我们提出了一种新的框架，称为BEVFormer，该框架通过使用时空变换器学习统一的鸟瞰图（BEV）表示来支持多种自动驾驶感知任务。简而言之，BEVFormer通过预定义的网格形状BEV查询与空间和时间域进行交互，从而利用空间和时间信息。为了聚合空间信息，我们设计了空间交叉注意力机制，每个BEV查询从不同摄像头视图中的感兴趣区域提取空间特征。对于时间信息，我们提出了时间自注意力机制，以递归方式融合历史BEV信息。我们的方法在nuScenes测试集上的NDS指标达到了新的最先进水平56.9%，比之前的最佳方法高出9.0个百分点，并且性能与基于激光雷达（LiDAR）的基线相当。此外，我们还展示了BEVFormer显著提高了低能见度条件下速度估计的准确性和目标检测的召回率。代码可在以下网址获取：https://github.com/zhiqi-li/BEVFormer。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供