17日前

アタリゲームの達成における離散的ワールドモデルの活用

Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba
アタリゲームの達成における離散的ワールドモデルの活用
要約

インテリジェントエージェントは、複雑な環境において目標を達成するためには、過去の経験から一般化する能力が必要である。世界モデル(world model)はこうした一般化を支援し、想定された結果から行動を学習することで、サンプル効率を向上させる。近年、画像入力を用いた世界モデルの学習は一部のタスクにおいて可能になったが、アタリゲームを十分に正確にモデル化し、成功する行動を導き出すことは長年にわたり未解決の課題であった。本研究では、強化学習エージェント「DreamerV2」を提案する。DreamerV2は、強力な世界モデルのコンパクトな潜在空間(latent space)における予測から、純粋に行動を学習する。世界モデルは離散表現(discrete representations)を用い、ポリシーとは別に訓練される。DreamerV2は、別途訓練された世界モデル内でのみ行動を学習することにより、55タスクからなるアタリベンチマークで人間レベルの性能を達成した初めてのエージェントである。同じ計算リソースと実時間(wall-clock time)の制約下でも、DreamerV2は2億フレームに達し、トップクラスの単一GPUエージェントであるIQNおよびRainbowの最終性能を上回っている。さらに、DreamerV2は連続的な行動を扱うタスクにも適用可能であり、複雑なヒューマノイドロボットの正確な世界モデルを学習し、ピクセル入力のみから立ち上がりや歩行といったタスクを解決することに成功した。

アタリゲームの達成における離散的ワールドモデルの活用 | 最新論文 | HyperAI超神経