
要約
目標表現は、複雑な学習問題をより扱いやすい部分課題に分解することで、階層的強化学習(HRL)アルゴリズムの性能に影響を与える。近年の研究では、時間的に抽象化された環境ダイナミクスを保持する表現が、困難な問題の解決に成功し、最適性に関する理論的保証を提供することが示されている。しかしながら、これらの手法は環境ダイナミクスの複雑性が増すタスク、すなわち時間的に抽象化された遷移関係がより多くの変数に依存する状況にはスケーラブルでない。一方で、他の研究では空間的抽象化を用いて上述の課題を緩和しようとしているが、その限界として高次元環境へのスケーラビリティの欠如や事前知識に依存する点が挙げられる。本論文では、階層の異なるレベルで空間的および時間的目標抽象化を導入する、新たな三層構造のHRLアルゴリズムを提案する。本手法の学習された方策のリグレットバウンドについて理論的分析を提供し、複雑な連続制御タスクにおける実験を通じて、本アプローチによって学習される空間的・時間的抽象化の有効性を示す。オープンソースコードは以下のURLで公開されている:https://github.com/cosynus-lix/STAR。