HyperAI超神経

LoHoVLA: 長期的な体験タスクのための統合されたビジョン-言語-行動モデル

Yang, Yi ; Sun, Jiaxuan ; Kou, Siqi ; Wang, Yihan ; Deng, Zhijie
公開日: 6/4/2025
LoHoVLA: 長期的な体験タスクのための統合されたビジョン-言語-行動モデル
要約

実世界の具現化エージェントは、高レベルの目標を必要とする長期的なタスクに直面しています。これらのタスクは単一のアクションを超えた複数段階の解決策を必要とし、成功するためには高レベルのタスク計画(つまり、目標をサブタスクに分解すること)と低レベルの運動制御(つまり、正確なロボットアクションを生成すること)が求められます。既存のビジョン言語行動(VLA)モデルや階層型アーキテクチャは具現化タスクにおいて潜在能力を持っていますが、前者はしばしば計画で失敗し、後者は調整問題に苦しむことがあります。これらがパフォーマンスを阻害しています。私たちはこれらの制限を克服するために、新しい統合されたVLAフレームワークであるLoHoVLAを提案します。LoHoVLAは大規模な事前学習済みビジョン言語モデル(VLM)を基盤として利用し、サブタスク生成とロボットアクション予測のためにそれぞれ言語トークンと行動トークンを共同で生成します。この共有表現は、異なるタスク間でのより良い汎化を促進します。さらに、LoHoVLAは高レベル計画と低レベル制御から発生する誤差を軽減するために階層型閉ループ制御メカニズムを取り入れています。LoHoVLAの訓練のために、Ravensシミュレータに基づいて構築されたデータセットLoHoSetを導入しました。このデータセットには20つの長期的なタスクがあり、各タスクには視覚観測、言語的目標、サブタスク、およびロボットアクションからなる1,000件の専門家デモンストレーションが含まれています。実験結果は、Ravensシミュレータにおける長期的な具現化タスクにおいてLoHoVLAが階層型および標準的なVLAアプローチよりも大幅に優れていることを示しています。これらの知見は、統合アーキテクチャが一般化可能な具現化インテリジェンスの進歩に有望であることを強調しています。