2ヶ月前

ピクセルから潜在的な動態を学習して計画を行う

Danijar Hafner; Timothy Lillicrap; Ian Fischer; Ruben Villegas; David Ha; Honglak Lee; James Davidson
ピクセルから潜在的な動態を学習して計画を行う
要約

計画は、環境のダイナミクスが既知である制御タスクにおいて非常に成功しています。未知の環境で計画を活用するためには、エージェントが世界との相互作用からダイナミクスを学習する必要があります。しかし、計画に十分正確なダイナミクスモデルを学習することは、特に画像ベースの領域では長年の課題となっています。本研究では、Deep Planning Network (PlaNet) を提案します。これは純粋にモデルベースのエージェントであり、画像から環境のダイナミクスを学習し、潜在空間での高速オンライン計画を通じて行動を選択します。高い性能を達成するためには、ダイナミクスモデルが複数の時間ステップ先の報酬を正確に予測しなければなりません。この問題に対処するために、決定論的および確率的な遷移成分を持つ潜在ダイナミクスモデルを使用しました。さらに、多段階変分推論目的関数(latent overshooting)を提案します。ピクセル観測値のみを使用して、当該エージェントは接触ダイナミクス、部分観測可能性、疎な報酬を持つ連続制御タスクを解決します。これらのタスクは、学習済みモデルによる計画で以前に解決されたものよりも難易度が高いです。PlaNet は大幅に少ないエピソード数で使用され、最終的な性能は強力なモデルフリーアルゴリズムと同等かそれ以上の結果を示しています。

ピクセルから潜在的な動態を学習して計画を行う | 最新論文 | HyperAI超神経