
要約
サンプル効率は強化学習における根本的な課題の一つである。モデルベースのアルゴリズムは、環境をモデルでシミュレートすることで、データの利用効率を向上させようとしている。本研究では、観測値を符号化するためのベクトル量子化変分自己符号化器(VQ-VAE)と、次の埋め込みインデックスを予測するための畳み込みLSTMを組み合わせた、新しいワールドモデル用ニューラルネットワークアーキテクチャを提案する。このワールドモデルから得られるシミュレートされた経験のみを用いて、モデルフリーなPPOエージェントを学習させる。我々はKaiserら(2020)が提案した設定を採用しており、実環境との相互作用回数を10万回までに制限している。この設定のもとで、36種類のAtari環境において本手法を適用した結果、SimPLeアルゴリズムと同等の性能を達成した一方で、モデルサイズは著しく小さく、効率的な学習が可能であることを示した。