2 个月前

TraceVLA：视觉追踪提示增强通用机器人策略的空间-时间意识

Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang

摘要

尽管在大量机器人数据集上预训练的大型视觉-语言-动作（VLA）模型为机器人学习提供了有前景的通用策略，它们在交互式机器人中的空间-时间动态方面仍面临挑战，导致在处理复杂任务（如操作）时效果不佳。在这项工作中，我们引入了一种简单而有效的方法——视觉轨迹提示（visual trace prompting），通过视觉编码状态-动作轨迹来增强VLA模型的空间-时间意识，从而改进其动作预测能力。我们基于自己的15万个机器人操作轨迹数据集，对OpenVLA进行了微调，开发出新的TraceVLA模型。在SimplerEnv环境下的137种配置和物理WidowX机器人上的4项任务中进行的评估表明，TraceVLA表现出最先进的性能，在SimplerEnv上比OpenVLA提高了10%，在真实机器人任务上则提高了3.5倍，并且在不同形态和场景中展现出强大的泛化能力。为了进一步验证我们方法的有效性和通用性，我们基于4B Phi-3-Vision构建了一个紧凑的VLA模型，该模型在Open-X-Embodiment数据集上进行了预训练，并在我们的数据集上进行了微调，其性能与7B OpenVLA基线相当，同时显著提升了推理效率。