11日前

学習されたモデルを用いた計画によるオンラインおよびオフライン強化学習

Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou, David Silver
学習されたモデルを用いた計画によるオンラインおよびオフライン強化学習
要約

少量のデータから効率的に学習することは、モデルベース強化学習において長年にわたり注目されてきた課題であり、環境とのオンラインインタラクションを行う場合と、固定データセットから学習するオフライン設定の両方において重要である。しかし、これまでのところ、両設定で最先端の性能を示せる単一の統合アルゴリズムは存在しなかった。本研究では、モデルベースのポリシーおよび価値改善演算子を用いて、既存のデータポイント上で新たな改善された学習ターゲットを計算する「Reanalyse」アルゴリズムを提案する。これにより、データ予算が数オーダー異なる場合でも効率的な学習が可能となる。さらに、Reanalyseは環境とのインタラクションを一切行わず、示範データ(demonstrations)のみから学習できることが示され、オフライン強化学習(offline RL)の設定にも適用可能である。ReanalyseをMuZeroアルゴリズムと組み合わせることで、任意のデータ予算(包括的にオフラインRLを含む)に対応可能な単一の統合アルゴリズム「MuZero Unplugged」を導入する。従来の手法とは異なり、本アルゴリズムはオフポリシーまたはオフラインRL設定に対して特別な調整を必要としない。MuZero Unpluggedは、RL UnpluggedのオフラインRLベンチマークおよび標準的な2億フレーム設定におけるAtariオンラインRLベンチマークにおいて、いずれも新たな最先端の成果を達成した。

学習されたモデルを用いた計画によるオンラインおよびオフライン強化学習 | 最新論文 | HyperAI超神経