HyperAI超神经
5 days ago

DreamVLA:一个融合全面世界知识的视觉-语言-行动模型

Wenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin
DreamVLA:一个融合全面世界知识的视觉-语言-行动模型
摘要

近期在视觉-语言-动作(VLA)模型方面的进展显示了将图像生成与动作预测相结合以提高机器人操作的泛化能力和推理能力的潜力。然而,现有的方法主要集中在具有挑战性的基于图像的预测上,这导致了冗余信息的产生,并且缺乏全面和关键的世界知识,包括动态、空间和语义信息。为了解决这些局限性,我们提出了一种名为DreamVLA的新颖VLA框架,该框架通过整合全面的世界知识预测来实现逆动力学建模,从而为操作任务建立了感知-预测-行动循环。具体而言,DreamVLA引入了一种动态区域引导的世界知识预测方法,结合了空间和语义线索,为动作规划提供了紧凑而全面的表示。这一设计与人类与世界互动的方式相一致,即首先形成抽象的多模态推理链再采取行动。为了减少训练过程中动态、空间和语义信息之间的干扰,我们采用了分块结构化的注意力机制,屏蔽它们之间的相互注意,防止信息泄露并保持每个表示的干净和解耦。此外,为了对未来的动作进行条件分布建模,我们使用了一种基于扩散的变压器模型(diffusion-based transformer),从共享潜在特征中解耦动作表示。大量的实验表明,在真实环境和仿真环境中,DreamVLA在实际机器人任务中的成功率为76.7%,在CALVIN ABC-D基准测试中的平均长度为4.44。