
摘要
高效地推理场景的语义、空间和时间结构是自动驾驶的关键前提条件。本文介绍了神经注意力场(NEural ATtention fields, NEAT),这是一种新颖的表示方法,能够为端到端模仿学习模型提供此类推理能力。NEAT 是一个连续函数,它将鸟瞰图(Bird's Eye View, BEV)场景坐标中的位置映射到路径点和语义,通过中间注意力图逐步将高维二维图像特征压缩为紧凑表示。这使得我们的模型能够在输入中选择性地关注相关区域,同时忽略与驾驶任务无关的信息,从而有效地将图像与 BEV 表示关联起来。在涉及恶劣环境条件和复杂场景的新评估设置中,NEAT 超越了多个强大的基线模型,并实现了与生成其训练数据的特权 CARLA 专家相当的驾驶评分。此外,对具有 NEAT 中间表示的模型进行注意力图可视化提供了更好的可解释性。