8 个月前

计算机视觉

多模态表征

计算机视觉

Kashyap Chitta∗1,2 Aditya Prakash∗1 Andreas Geiger1,2

摘要

高效地推理场景的语义、空间和时间结构是自动驾驶的关键前提条件。本文介绍了神经注意力场（NEural ATtention fields, NEAT），这是一种新颖的表示方法，能够为端到端模仿学习模型提供此类推理能力。NEAT 是一个连续函数，它将鸟瞰图（Bird's Eye View, BEV）场景坐标中的位置映射到路径点和语义，通过中间注意力图逐步将高维二维图像特征压缩为紧凑表示。这使得我们的模型能够在输入中选择性地关注相关区域，同时忽略与驾驶任务无关的信息，从而有效地将图像与 BEV 表示关联起来。在涉及恶劣环境条件和复杂场景的新评估设置中，NEAT 超越了多个强大的基线模型，并实现了与生成其训练数据的特权 CARLA 专家相当的驾驶评分。此外，对具有 NEAT 中间表示的模型进行注意力图可视化提供了更好的可解释性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Kashyap Chitta∗1,2 Aditya Prakash∗1 Andreas Geiger1,2

摘要

高效地推理场景的语义、空间和时间结构是自动驾驶的关键前提条件。本文介绍了神经注意力场（NEural ATtention fields, NEAT），这是一种新颖的表示方法，能够为端到端模仿学习模型提供此类推理能力。NEAT 是一个连续函数，它将鸟瞰图（Bird's Eye View, BEV）场景坐标中的位置映射到路径点和语义，通过中间注意力图逐步将高维二维图像特征压缩为紧凑表示。这使得我们的模型能够在输入中选择性地关注相关区域，同时忽略与驾驶任务无关的信息，从而有效地将图像与 BEV 表示关联起来。在涉及恶劣环境条件和复杂场景的新评估设置中，NEAT 超越了多个强大的基线模型，并实现了与生成其训练数据的特权 CARLA 专家相当的驾驶评分。此外，对具有 NEAT 中间表示的模型进行注意力图可视化提供了更好的可解释性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供