HyperAIHyperAI

Command Palette

Search for a command to run...

ピクセルから潜在的な動態を学習して計画を行う

Danijar Hafner Timothy Lillicrap Ian Fischer Ruben Villegas David Ha Honglak Lee James Davidson

概要

計画は、環境のダイナミクスが既知である制御タスクにおいて非常に成功しています。未知の環境で計画を活用するためには、エージェントが世界との相互作用からダイナミクスを学習する必要があります。しかし、計画に十分正確なダイナミクスモデルを学習することは、特に画像ベースの領域では長年の課題となっています。本研究では、Deep Planning Network (PlaNet) を提案します。これは純粋にモデルベースのエージェントであり、画像から環境のダイナミクスを学習し、潜在空間での高速オンライン計画を通じて行動を選択します。高い性能を達成するためには、ダイナミクスモデルが複数の時間ステップ先の報酬を正確に予測しなければなりません。この問題に対処するために、決定論的および確率的な遷移成分を持つ潜在ダイナミクスモデルを使用しました。さらに、多段階変分推論目的関数(latent overshooting)を提案します。ピクセル観測値のみを使用して、当該エージェントは接触ダイナミクス、部分観測可能性、疎な報酬を持つ連続制御タスクを解決します。これらのタスクは、学習済みモデルによる計画で以前に解決されたものよりも難易度が高いです。PlaNet は大幅に少ないエピソード数で使用され、最終的な性能は強力なモデルフリーアルゴリズムと同等かそれ以上の結果を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています