Command Palette
Search for a command to run...
野生における潜在行動世界モデルの学習
野生における潜在行動世界モデルの学習
Quentin Garrido Tushar Nagarajan Basile Terver Nicolas Ballas Yann LeCun Michael Rabbat
Abstract
現実世界における推論および計画が可能なエージェントは、自らの行動がもたらす結果を予測する能力を備えている必要がある。世界モデルはこの能力を有しているが、多くの場合、行動ラベルを必要とし、スケールに応じたラベルの取得は複雑である。このため、動画から行動空間を学習できる潜在行動モデルの学習が促進されている。本研究では、単純なロボットシミュレーションやビデオゲーム、操作データに焦点を当てた従来の研究を拡張し、リアルな環境(in-the-wild)から得られる動画を用いた潜在行動世界モデルの学習という課題に取り組む。これにより、より豊かな行動を捉えることが可能となる一方で、動画の多様性に起因する課題、例えば環境ノイズや動画間での共通した身体性(embodiment)の欠如といった問題も生じる。これらの課題に対処するため、行動が満たすべき性質や関連するアーキテクチャの選択、評価方法について検討する。我々の結果から、連続的だが制約された潜在行動は、in-the-wild動画から得られる行動の複雑性を捉えることができ、従来の一般的なベクトル量子化(vector quantization)では達成できないことが明らかになった。例えば、人間が部屋に入ることなど、エージェントによる環境の変化が動画間で共有可能であることが確認された。これは、in-the-wild動画に特有の行動を学習する能力を示している。動画間で共通の身体性が存在しない状況下では、主にカメラに相対的な空間的に局在化した潜在行動の学習にとどまるが、既知の行動を潜在行動にマッピングするコントローラを学習可能である。これにより、潜在行動を汎用インターフェースとして利用し、行動条件付きのベースラインと同等の性能で世界モデルを用いた計画タスクを解決することが可能となった。本研究の分析と実験は、潜在行動モデルを現実世界へスケーリングするための一歩を示している。