2 个月前
TraceVLA:视觉追踪提示增强通用机器人策略的空间-时间意识
Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang

摘要
尽管在大量机器人数据集上预训练的大型视觉-语言-动作(VLA)模型为机器人学习提供了有前景的通用策略,它们在交互式机器人中的空间-时间动态方面仍面临挑战,导致在处理复杂任务(如操作)时效果不佳。在这项工作中,我们引入了一种简单而有效的方法——视觉轨迹提示(visual trace prompting),通过视觉编码状态-动作轨迹来增强VLA模型的空间-时间意识,从而改进其动作预测能力。我们基于自己的15万个机器人操作轨迹数据集,对OpenVLA进行了微调,开发出新的TraceVLA模型。在SimplerEnv环境下的137种配置和物理WidowX机器人上的4项任务中进行的评估表明,TraceVLA表现出最先进的性能,在SimplerEnv上比OpenVLA提高了10%,在真实机器人任务上则提高了3.5倍,并且在不同形态和场景中展现出强大的泛化能力。为了进一步验证我们方法的有效性和通用性,我们基于4B Phi-3-Vision构建了一个紧凑的VLA模型,该模型在Open-X-Embodiment数据集上进行了预训练,并在我们的数据集上进行了微调,其性能与7B OpenVLA基线相当,同时显著提升了推理效率。