HyperAI超神経
5日前

DreamVLA: 全世界的知識を夢見る視覚・言語・行動モデル

Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
DreamVLA: 全世界的知識を夢見る視覚・言語・行動モデル
要約

最近の視覚言語行動(Vision-Language-Action: VLA)モデルの進展は、画像生成と行動予測を統合することで、ロボット操作における汎化能力和推理能力の向上に有望であることが示されています。しかし、既存の手法は画像ベースの予測に限定されており、冗長な情報が含まれるだけでなく、動的、空間的、意味的な世界知識を包括的にかつ批判的に欠いています。これらの制限に対処するため、本研究ではDreamVLAという新しいVLAフレームワークを提案します。DreamVLAは包括的な世界知識予測を統合し、逆力学モデルを可能にすることにより、操作タスク向けの知覚-予測-行動ループを確立します。具体的には、DreamVLAは動的領域ガイドによる世界知識予測を導入しており、これには空間的および意味的な手がかりが組み合わさっています。この設計は人間が世界と対話する方法と一致しており、行動前に抽象的な多モーダル推論チェーンを形成します。訓練中に動的、空間的、意味的情報間に干渉が生じる問題を軽減するために、ブロック単位で構造化された注意メカニズムを使用しています。このメカニズムは相互の注意をマスキングし、情報漏洩を防ぎつつ各表現をクリーンかつ分離した状態に保ちます。さらに、将来の行動に関する条件付き分布をモデル化するために、共有潜在特徴から行動表現を取り出す拡散型トランスフォーマーを利用しています。実世界環境とシミュレーション環境での広範な実験により、DreamVLAは実際のロボットタスクにおいて76.7%の成功率を達成し、CALVIN ABC-Dベンチマークでは平均4.44の長さを得ることが示されました。