
摘要
我们通过基于模型的方法从预先录制的驾驶日志中学习一种交互式的视觉驱动策略。该方法利用一个世界前向模型来监督驾驶策略,该策略可以预测任何潜在驾驶轨迹的结果。为了支持从预先录制的日志中学习,我们假设这个世界是“轨道上的”,即代理及其行为不会影响环境。这一假设极大地简化了学习问题,将动力学分解为一个非反应性的世界模型和一个低维且紧凑的自车前向模型(ego-vehicle forward model)。我们的方法使用表格动态规划评估贝尔曼方程来计算每个训练轨迹的动作值;这些动作值反过来监督最终的视觉驱动策略。尽管采用了“轨道上的世界”假设,但最终的驾驶策略在动态和反应性的环境中表现良好。截至本文撰写时,我们的方法在CARLA排行榜上排名第一,在使用数据量减少40倍的情况下,驾驶得分提高了25%。此外,我们的方法在ProcGen基准中的导航任务上比最先进的无模型强化学习技术的样本效率高一个数量级。