HyperAI超神经

LoHoVLA:一种用于长期具身任务的统一视觉-语言-行动模型

Yang, Yi ; Sun, Jiaxuan ; Kou, Siqi ; Wang, Yihan ; Deng, Zhijie
发布日期: 6/4/2025
LoHoVLA:一种用于长期具身任务的统一视觉-语言-行动模型
摘要

现实世界中的具身智能体面临长期任务,这些任务的特点是高层次目标需要多步骤解决方案而不仅仅是单一动作。成功完成这些任务不仅需要高层次的任务规划(即将目标分解为子任务),还需要低层次的动作控制(即生成精确的机器人动作)。尽管现有的视觉语言行动(VLA)模型和分层架构在具身任务中展现出潜力,但前者往往在规划方面表现不佳,后者则可能因协调问题而影响性能。为此,我们提出了一种新的统一VLA框架,称为LoHoVLA,以克服这些局限性。LoHoVLA利用大规模预训练的视觉语言模型(VLM)作为主干,共同生成用于子任务生成和机器人动作预测的语言和动作标记。这种共享表示有助于提高跨任务的泛化能力。此外,LoHoVLA采用分层闭环控制机制来减少由高层次规划和低层次控制引起的错误。为了训练LoHoVLA,我们引入了LoHoSet数据集,该数据集基于Ravens模拟器构建,包含20个长期任务,每个任务有1,000个专家演示,包括视觉观察、语言目标、子任务和机器人动作。实验结果表明,在Ravens模拟器中的长期具身任务上,LoHoVLA显著超越了分层和标准的VLA方法。这些发现强调了统一架构在推进可泛化的具身智能方面的潜力。