6 个月前

多模态表征

计算机视觉

Haiyang Wang Hao Tang Shaoshuai Shi Aoxue Li Zhenguo Li Bernt Schiele Liwei Wang

摘要

联合处理来自多个传感器的信息对于实现可靠自动驾驶系统所需的精准且鲁棒的感知至关重要。然而，当前的三维感知研究大多遵循特定模态的范式，导致额外的计算开销，并使得不同传感器数据之间的协作效率低下。本文提出了一种面向室外三维感知的高效多模态主干网络——UniTR，该网络采用统一建模方式与共享参数，能够处理多种模态的数据。与以往工作不同，UniTR引入了一种模态无关的Transformer编码器，可并行地对视图差异显著的传感器数据进行模态独立的表征学习，并实现无需额外融合步骤的自动跨模态交互。更重要的是，为充分挖掘各类互补传感器的优势，我们提出了一种新颖的多模态融合策略，同时结合语义丰富的二维视角信息与几何感知的三维稀疏邻域关系。UniTR还是一种根本意义上的任务无关主干网络，天然支持多种三维感知任务。在nuScenes基准测试中，UniTR取得了新的最先进性能：在3D目标检测任务上，NDS指标提升1.1；在鸟瞰图（BEV）地图分割任务上，mIoU提升12.0，且推理延迟更低。代码将公开于 https://github.com/Haiyang-W/UniTR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Haiyang Wang Hao Tang Shaoshuai Shi Aoxue Li Zhenguo Li Bernt Schiele Liwei Wang

摘要

联合处理来自多个传感器的信息对于实现可靠自动驾驶系统所需的精准且鲁棒的感知至关重要。然而，当前的三维感知研究大多遵循特定模态的范式，导致额外的计算开销，并使得不同传感器数据之间的协作效率低下。本文提出了一种面向室外三维感知的高效多模态主干网络——UniTR，该网络采用统一建模方式与共享参数，能够处理多种模态的数据。与以往工作不同，UniTR引入了一种模态无关的Transformer编码器，可并行地对视图差异显著的传感器数据进行模态独立的表征学习，并实现无需额外融合步骤的自动跨模态交互。更重要的是，为充分挖掘各类互补传感器的优势，我们提出了一种新颖的多模态融合策略，同时结合语义丰富的二维视角信息与几何感知的三维稀疏邻域关系。UniTR还是一种根本意义上的任务无关主干网络，天然支持多种三维感知任务。在nuScenes基准测试中，UniTR取得了新的最先进性能：在3D目标检测任务上，NDS指标提升1.1；在鸟瞰图（BEV）地图分割任务上，mIoU提升12.0，且推理延迟更低。代码将公开于 https://github.com/Haiyang-W/UniTR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供