2ヶ月前
NetHack 学習環境
Heinrich Küttler; Nantas Nardelli; Alexander H. Miller; Roberta Raileanu; Marco Selvatici; Edward Grefenstette; Tim Rocktäschel

要約
強化学習(Reinforcement Learning: RL)アルゴリズムの進歩は、現行手法の限界を試す挑戦的な環境の開発と共に進んでいます。既存のRL環境は、十分に複雑であるか、または高速なシミュレーションに基づいているかのいずれかですが、両方を満たしていることは稀です。本稿では、NetHack Learning Environment (NLE) を紹介します。これは、人気のある単一プレイヤー向けターミナルベースのローグライクゲーム NetHack を基盤とする、スケーラブルで手順生成され、確率的で豊富かつ挑戦的なRL研究用環境です。私たちは、NetHack が探索や計画、スキル獲得、言語条件付きRLなどの長期的研究問題に十分な複雑さを持ちつつ、大量の経験を収集するために必要な計算資源を大幅に削減できると主張します。NLE およびそのタスクスイートを既存の代替手段と比較し、なぜRLエージェントの堅牢性と体系的な一般化能力をテストする理想的な媒体であるかについて議論します。また、分散型ディープRLベースラインとランダムネットワーク蒸留探索を使用したゲーム初期段階での実証的成功について示し、環境で訓練された様々なエージェントの定性的分析も行います。NLE はオープンソースであり、https://github.com/facebookresearch/nle で公開されています。