2 个月前

从像素中学习潜在动力学以进行规划

Danijar Hafner; Timothy Lillicrap; Ian Fischer; Ruben Villegas; David Ha; Honglak Lee; James Davidson
从像素中学习潜在动力学以进行规划
摘要

规划在已知环境动态的控制任务中已经取得了显著成功。为了在未知环境中利用规划,智能体需要通过与世界的交互来学习环境动态。然而,学习足够精确的动态模型以支持规划一直是一个长期存在的挑战,特别是在基于图像的领域。我们提出了一种深度规划网络(Deep Planning Network,简称PlaNet),这是一种完全基于模型的智能体,它从图像中学习环境动态,并通过在潜在空间中进行快速在线规划来选择动作。为了实现高性能,动态模型必须能够准确预测多个时间步长后的奖励。为此,我们采用了一个包含确定性和随机转换组件的潜在动态模型。此外,我们提出了一种多步变分推断目标,称为潜在超前(latent overshooting)。仅使用像素观察数据,我们的智能体解决了具有接触动力学、部分可观测性和稀疏奖励的连续控制任务,这些任务的难度超过了以往通过学习模型进行规划所解决的任务。PlaNet使用的剧集数量显著较少,并且最终性能接近甚至有时超过强大的无模型算法。

从像素中学习潜在动力学以进行规划 | 最新论文 | HyperAI超神经