8 个月前

Keerthiram Murugesan Mattia Atzeni Pavan Kapanipathi Pushkar Shukla Sadhana Kumaravel Gerald Tesauro Kartik Talamadupula Mrinmaya Sachan Murray Campbell

摘要

基于文本的游戏已成为强化学习（Reinforcement Learning, RL）研究的重要测试平台，要求RL代理将基于语境的语言理解与顺序决策相结合。本文探讨了向RL代理注入常识知识的问题。这种知识将使代理能够通过排除不可能的行为来高效地行动，并进行前瞻性规划以确定当前行为可能对未来的世界状态产生何种影响。我们设计了一个新的基于文本的游戏环境，称为TextWorld Commonsense（TWC），用于训练和评估具有特定类型关于对象、其属性及其可操作性的常识知识的RL代理。此外，我们引入了几种基线RL代理，这些代理能够跟踪顺序上下文并从ConceptNet中动态检索相关常识知识。实验结果表明，在TWC环境中融入常识知识的代理表现更佳，同时行动更加高效。我们还进行了用户研究以估算人类在TWC中的表现，并展示了未来有巨大的改进空间。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Keerthiram Murugesan Mattia Atzeni Pavan Kapanipathi Pushkar Shukla Sadhana Kumaravel Gerald Tesauro Kartik Talamadupula Mrinmaya Sachan Murray Campbell

摘要

基于文本的游戏已成为强化学习（Reinforcement Learning, RL）研究的重要测试平台，要求RL代理将基于语境的语言理解与顺序决策相结合。本文探讨了向RL代理注入常识知识的问题。这种知识将使代理能够通过排除不可能的行为来高效地行动，并进行前瞻性规划以确定当前行为可能对未来的世界状态产生何种影响。我们设计了一个新的基于文本的游戏环境，称为TextWorld Commonsense（TWC），用于训练和评估具有特定类型关于对象、其属性及其可操作性的常识知识的RL代理。此外，我们引入了几种基线RL代理，这些代理能够跟踪顺序上下文并从ConceptNet中动态检索相关常识知识。实验结果表明，在TWC环境中融入常识知识的代理表现更佳，同时行动更加高效。我们还进行了用户研究以估算人类在TWC中的表现，并展示了未来有巨大的改进空间。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供