8 个月前

Julian Schrittwieser Ioannis Antonoglou Thomas Hubert Karen Simonyan Laurent Sifre Simon Schmitt Arthur Guez Edward Lockhart Demis Hassabis Thore Graepel

摘要

构建具有规划能力的智能体一直是追求人工智能的主要挑战之一。基于树的规划方法在象棋和围棋等具有完美模拟器的复杂领域取得了巨大成功。然而，在现实世界问题中，环境的动力学往往非常复杂且未知。在这项工作中，我们提出了MuZero算法，该算法通过结合基于树的搜索和学习模型，在一系列具有挑战性和视觉复杂性的领域中实现了超越人类的表现，而无需了解这些领域的底层动力学。MuZero学习了一个模型，该模型在迭代应用时可以预测对规划最直接相关的量：奖励、动作选择策略和价值函数。当在57种不同的Atari游戏中进行评估时——这是测试AI技术的经典视频游戏环境，历史上基于模型的规划方法在此环境中表现不佳——我们的新算法达到了新的技术水平。在围棋、象棋和将棋上进行评估时，即使没有任何游戏规则的知识，MuZero也达到了与AlphaZero算法相当的超人水平，而AlphaZero算法是在提供游戏规则的情况下实现这一表现的。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Julian Schrittwieser Ioannis Antonoglou Thomas Hubert Karen Simonyan Laurent Sifre Simon Schmitt Arthur Guez Edward Lockhart Demis Hassabis Thore Graepel

摘要

构建具有规划能力的智能体一直是追求人工智能的主要挑战之一。基于树的规划方法在象棋和围棋等具有完美模拟器的复杂领域取得了巨大成功。然而，在现实世界问题中，环境的动力学往往非常复杂且未知。在这项工作中，我们提出了MuZero算法，该算法通过结合基于树的搜索和学习模型，在一系列具有挑战性和视觉复杂性的领域中实现了超越人类的表现，而无需了解这些领域的底层动力学。MuZero学习了一个模型，该模型在迭代应用时可以预测对规划最直接相关的量：奖励、动作选择策略和价值函数。当在57种不同的Atari游戏中进行评估时——这是测试AI技术的经典视频游戏环境，历史上基于模型的规划方法在此环境中表现不佳——我们的新算法达到了新的技术水平。在围棋、象棋和将棋上进行评估时，即使没有任何游戏规则的知识，MuZero也达到了与AlphaZero算法相当的超人水平，而AlphaZero算法是在提供游戏规则的情况下实现这一表现的。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供