
摘要
我们提出了一种新颖的知识蒸馏框架,旨在有效指导传感器运动学生代理从特权教师代理的监督下学习驾驶。现有的传感器运动代理知识蒸馏方法往往导致学生学到的驾驶行为次优,我们认为这是由于两个代理在输入、建模能力和优化过程方面存在固有的差异所致。为此,我们开发了一种新的蒸馏方案,以解决这些限制并缩小传感器运动代理与其特权教师之间的差距。我们的关键见解是设计一个能够将输入特征与教师的特权鸟瞰图(Bird's Eye View, BEV)空间对齐的学生。这样一来,学生可以从教师对其内部表示学习的直接监督中获益。为了辅助复杂的传感器运动学习任务,学生模型通过一种以学生为中心的辅导机制进行优化,并结合多种辅助监督。此外,我们还提出了一种高容量的模仿学习特权代理,在CARLA环境中超越了先前的特权代理,并确保学生学会安全的驾驶行为。我们所提出的传感器运动代理在CARLA中实现了一个稳健的基于图像的行为克隆代理,无需使用LiDAR、历史观测数据、模型集成、在线策略数据聚合或强化学习的情况下,其驾驶得分比现有模型提高了20.6%以上。