4ヶ月前

WorldVLA: 自回帰行動世界モデルへ向けて

Jun Cen Chaohui Yu Hangjie Yuan Yuming Jiang Siteng Huang Jiayan Guo Xin Li Yibing Song Hao Luo Fan Wang

要約

我々はWorldVLAを提案します。これは、行動と画像の理解および生成を統一する自己回帰型の行動世界モデルです。当該WorldVLAは、ビジョン・言語・行動（Vision-Language-Action: VLA）モデルと世界モデルを単一のフレームワークに統合しています。世界モデルは、環境の基礎となる物理法則を学習し、行動生成を改善することを目指して、行動と画像の理解を活用して将来の画像を予測します。一方、行動モデルは画像観測に基づいて次の行動を生成し、視覚的理解を助け、さらに世界モデルの視覚的生成に貢献します。我々はWorldVLAが単独の行動モデルや世界モデルよりも優れた性能を持つことを示しており、これにより世界モデルと行動モデル間での相互強化が強調されています。また、自己回帰的な方法で行動シーケンスを生成すると、行動モデルの性能が低下することがわかりました。この現象は、行動予測におけるモデルの一般化能力の制限によって引き起こされ、初期の行動から後続の行動への誤差伝播につながります。この問題に対処するために、現在の行動生成時に選択的に過去の行動をマスクする注意マスク戦略を提案しており、これが行動チャンク生成タスクにおいて大幅な性能向上につながることが示されています。

コードリポジトリ

alibaba-damo-academy/worldvla

公式

pytorch

GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

WorldVLA: 自回帰行動世界モデルへ向けて

Jun Cen Chaohui Yu Hangjie Yuan Yuming Jiang Siteng Huang Jiayan Guo Xin Li Yibing Song Hao Luo Fan Wang2 more

要約

コードリポジトリ

AI で AI を構築

Hyper Newsletters

Jun Cen Chaohui Yu Hangjie Yuan Yuming Jiang Siteng Huang Jiayan Guo Xin Li Yibing Song Hao Luo Fan Wang