Command Palette
Search for a command to run...

要約
我々はWorldVLAを提案します。これは、行動と画像の理解および生成を統一する自己回帰型の行動世界モデルです。当該WorldVLAは、ビジョン・言語・行動(Vision-Language-Action: VLA)モデルと世界モデルを単一のフレームワークに統合しています。世界モデルは、環境の基礎となる物理法則を学習し、行動生成を改善することを目指して、行動と画像の理解を活用して将来の画像を予測します。一方、行動モデルは画像観測に基づいて次の行動を生成し、視覚的理解を助け、さらに世界モデルの視覚的生成に貢献します。我々はWorldVLAが単独の行動モデルや世界モデルよりも優れた性能を持つことを示しており、これにより世界モデルと行動モデル間での相互強化が強調されています。また、自己回帰的な方法で行動シーケンスを生成すると、行動モデルの性能が低下することがわかりました。この現象は、行動予測におけるモデルの一般化能力の制限によって引き起こされ、初期の行動から後続の行動への誤差伝播につながります。この問題に対処するために、現在の行動生成時に選択的に過去の行動をマスクする注意マスク戦略を提案しており、これが行動チャンク生成タスクにおいて大幅な性能向上につながることが示されています。
コードリポジトリ
alibaba-damo-academy/worldvla
公式
pytorch
GitHubで言及