Go-Explore: 難易度の高い探索問題に対する新しいアプローチ

強化学習における大きな課題は、報酬が希薄または誤導的な場合の知能的な探索です。この困難な探索領域のベンチマークとして、2つのアタリゲームが用いられています:モンテズーマの復讐とピットフォール。これらのゲームにおいて、現在の強化学習アルゴリズムはパフォーマンスが低く、内在的動機付けを用いたものでも同様です。内在的動機付けは、困難な探索領域でのパフォーマンス向上に最も効果的な方法とされています。この課題に対処するため、私たちは新しいアルゴリズム「Go-Explore」を提案します。このアルゴリズムは以下の原理を利用しています:(1) 以前に訪れた状態を記憶する、(2) 約束のある状態にまず戻る(探索なし)、その後その状態から探索を行う、(3) シミュレーション環境を利用可能な手段で解き(決定論を導入することも含む)、その後模倣学習を通じて堅牢性を高める。これらの原理の組み合わせにより、困難な探索問題でのパフォーマンスが大幅に向上します。モンテズーマの復讐では、「Go-Explore」は平均43,000点以上を獲得し、従来の最先端技術のほぼ4倍の成績を達成しました。「Go-Explore」はまた、人間が提供したドメイン知識を利用でき、それを補完することでモンテズーマの復讐で平均650,000点以上を獲得します。最大性能である約1,800万点は人間の世界記録を超え、「超人的」という最も厳格な定義にも適合します。ピットフォールでは、「Go-Explore」(ドメイン知識付き)が初めてゼロ以上の得点を達成しました。平均得点は約60,000点で、専門家レベルの人間のパフォーマンスを超えています。「Go-Explore」は高パフォーマンスなデモンストレーションを自動的にかつ安価に生成できるため、人間がソリューションデモンストレーションを提供する模倣学習研究よりも優れています。「Go-Explore」はその改善や現行の強化学習アルゴリズムへの統合に関する多くの新たな研究方向を開拓しています。また、特に訓練中にシミュレーターを利用する分野(例:ロボティクス)における未解決の困難な探索問題に対する進展も可能にするかもしれません。