2 个月前
NetHack学习环境
Heinrich Küttler; Nantas Nardelli; Alexander H. Miller; Roberta Raileanu; Marco Selvatici; Edward Grefenstette; Tim Rocktäschel

摘要
强化学习(RL)算法的进步与挑战性环境的开发齐头并进,这些环境测试了当前方法的极限。现有的RL环境要么足够复杂,要么基于快速模拟,但很少同时具备这两点。本文介绍了一种基于流行单人终端游戏NetHack的强化学习研究环境——NetHack学习环境(NLE)。我们认为,NetHack不仅具有足够的复杂性,可以推动长期研究解决诸如探索、规划、技能获取和语言条件下的RL等问题,而且在大幅减少收集大量经验所需计算资源方面表现出色。我们将NLE及其任务套件与现有替代方案进行了比较,并讨论了为什么它是一种理想的媒介,用于测试RL代理的鲁棒性和系统泛化能力。我们使用分布式深度RL基线和随机网络蒸馏探索方法展示了游戏早期阶段的经验成功,并对在该环境中训练的各种代理进行了定性分析。NLE是开源项目,可在https://github.com/facebookresearch/nle 获取。注释:- “Reinforcement Learning” 译为“强化学习”- “NetHack Learning Environment (NLE)” 译为“NetHack学习环境(NLE)”- “Random Network Distillation exploration” 译为“随机网络蒸馏探索方法”