6 个月前

多模态表征

多任务学习

Zhijian Liu Haotian Tang Alexander Amini Xinyu Yang Huizi Mao Daniela Rus Song Han

摘要

多传感器融合对于构建准确且可靠的自动驾驶系统至关重要。近年来的方法大多采用点级融合策略：将相机特征融入激光雷达点云中。然而，相机到激光雷达的投影过程会丢失相机特征的语义密度，从而限制了此类方法的性能，尤其是在面向语义的任务（如三维场景分割）中表现受限。本文提出BEVFusion，打破这一根深蒂固的传统范式，构建了一个高效且通用的多任务、多传感器融合框架。该框架在共享的鸟瞰图（Bird’s-Eye View, BEV）表示空间中统一多模态特征，能够有效保留几何与语义信息。为实现这一目标，我们深入分析并优化了视图变换中的关键效率瓶颈，引入改进的BEV池化机制，使延迟降低超过40倍。BEVFusion本质上具备任务无关性，几乎无需调整网络结构即可无缝支持多种三维感知任务。在nuScenes数据集上，该方法达到了新的最先进水平：在3D目标检测任务中，mAP和NDS分别提升1.3%；在BEV地图分割任务中，mIoU提升13.6%，同时计算成本降低至原来的1/1.9。相关代码已开源，可通过 https://github.com/mit-han-lab/bevfusion 获取以复现实验结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

多任务学习

Zhijian Liu Haotian Tang Alexander Amini Xinyu Yang Huizi Mao Daniela Rus Song Han

摘要

多传感器融合对于构建准确且可靠的自动驾驶系统至关重要。近年来的方法大多采用点级融合策略：将相机特征融入激光雷达点云中。然而，相机到激光雷达的投影过程会丢失相机特征的语义密度，从而限制了此类方法的性能，尤其是在面向语义的任务（如三维场景分割）中表现受限。本文提出BEVFusion，打破这一根深蒂固的传统范式，构建了一个高效且通用的多任务、多传感器融合框架。该框架在共享的鸟瞰图（Bird’s-Eye View, BEV）表示空间中统一多模态特征，能够有效保留几何与语义信息。为实现这一目标，我们深入分析并优化了视图变换中的关键效率瓶颈，引入改进的BEV池化机制，使延迟降低超过40倍。BEVFusion本质上具备任务无关性，几乎无需调整网络结构即可无缝支持多种三维感知任务。在nuScenes数据集上，该方法达到了新的最先进水平：在3D目标检测任务中，mAP和NDS分别提升1.3%；在BEV地图分割任务中，mIoU提升13.6%，同时计算成本降低至原来的1/1.9。相关代码已开源，可通过 https://github.com/mit-han-lab/bevfusion 获取以复现实验结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供