17 天前

面向视觉机器人操作的大规模视频生成预训练赋能

Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong
面向视觉机器人操作的大规模视频生成预训练赋能
摘要

生成式预训练模型在语言和视觉领域已展现出卓越的表征学习能力。本文进一步拓展了这一能力的适用范围,证明大规模视频生成式预训练可显著提升视觉引导的机器人操作性能。我们提出GR-1,一种基于GPT风格架构的简洁模型,专为多任务、语言条件驱动的视觉机器人操作设计。GR-1以语言指令、观测图像序列以及机器人状态序列为输入,端到端地预测机器人动作及未来图像。得益于其灵活的架构设计,GR-1可在大规模视频数据集上进行预训练后,无缝地在真实机器人数据上进行微调。我们在具有挑战性的CALVIN基准测试以及真实机器人平台上进行了大量实验。在CALVIN基准测试中,我们的方法超越了现有最先进基线模型,将成功率从88.9%提升至94.9%。在零样本未见场景泛化场景下,成功率更是从53.3%显著提升至85.4%。在真实机器人实验中,GR-1同样优于各类基线方法,并展现出在未见场景与未见物体上的强大泛化能力。本研究首次提供了有力证据,表明经过大规模视频生成式预训练增强的统一GPT风格Transformer模型,在多任务视觉机器人操作任务中具备出色的泛化性能。项目主页:https://GR1-Manipulation.github.io