2 个月前
图网络作为可学习的物理引擎用于推理和控制
Alvaro Sanchez-Gonzalez; Nicolas Heess; Jost Tobias Springenberg; Josh Merel; Martin Riedmiller; Raia Hadsell; Peter Battaglia

摘要
理解和交互日常物理场景需要丰富的关于世界结构的知识,这些知识可以隐式地表示在价值函数或策略函数中,也可以显式地表示在转移模型中。本文介绍了一种基于图网络的新可学习模型类别,该模型实现了对复杂动态系统对象和关系中心表示的归纳偏置。我们的研究结果表明,作为前向模型,我们的方法不仅支持从真实数据和模拟数据中进行准确预测,而且在八种不同物理系统(我们对其进行了参数和结构上的变化)上表现出令人惊讶的强大且高效的泛化能力。此外,我们发现我们的推理模型能够执行系统识别。我们的模型还具有可微性,支持通过基于梯度的轨迹优化进行在线规划,以及离线策略优化。我们的框架为利用和开发关于世界的丰富知识提供了新的机会,并朝着构建具有更类人世界表征的机器迈出了关键一步。