最初に再帰を行い、その後探索を行う

強化学習の潜在能力は、高レベルの報酬関数のみを指定することで、複雑な順序決定問題を自律的に解くことにある。しかし、実際にはしばしば単純かつ直感的な報酬が疎で誤解を招くフィードバックをもたらすため、強化学習アルゴリズムはそのような状況下で困難に直面する。こうした落とし穴を回避するためには、環境を徹底的に探索する必要があるが、そのような探索を可能にするアルゴリズムの設計は、現在の分野における中心的な課題の一つである。本研究では、効果的な探索の主要な障壁が、過去に訪れた状態へ戻る能力をアルゴリズムが失う「分離(detachment)」現象、および探索を開始する前にその状態に戻らない「脱線(derailment)」現象に起因すると仮説を立てた。そこで、有望な状態を明示的に記憶し、その状態へ戻った上で意図的に探索を開始するというシンプルな原則に基づいて、新たなアルゴリズム群「Go-Explore」を提案する。Go-Exploreは、これまで解けなかったすべてのAtariゲームを解決し、すべてのハードな探索問題において既存の最良手法を上回る成果を達成。特に、大きな挑戦として知られる「モンテズマの復讐(Montezuma’s Revenge)」および「ピットファル(Pitfall)」において、桁違いの性能向上を実現した。また、スパース報酬を持つピックアンドプレースロボティクスタスクにおいても、Go-Exploreの実用的有効性を実証した。さらに、ゴール条件付きポリシーを導入することで、Go-Exploreの探索効率がさらに向上し、訓練全体にわたり確率的環境の扱いも可能になることを示した。Go-Exploreによる顕著な性能向上は、状態の記憶、その状態への戻り、そしてそこからの探索というシンプルな原則が、探索という課題に対して強力かつ汎用的なアプローチであることを示しており、真の知能を持つ学習エージェントの創出において、この知見が極めて重要になる可能性がある。