17 天前

GR-MG：通过多模态目标条件策略利用部分标注数据

Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong

摘要

机器人领域长期致力于实现能够根据灵活的自然语言指令完成通用操作的机器人系统。然而，一个主要挑战在于：获取同时包含动作标注和文本描述的完整机器人轨迹数据，既耗时又费力。相比之下，部分标注的数据——例如缺乏动作标签的人类活动视频，或缺乏文本标签的机器人轨迹——则更容易收集。我们能否利用这类数据来提升机器人的泛化能力？本文提出了一种名为GR-MG的新方法，该方法支持基于文本指令和目标图像进行条件控制。在训练阶段，GR-MG从轨迹中采样目标图像，并在有文本时同时以文本和目标图像作为条件；当文本不可用时，则仅以目标图像为条件。在推理阶段，仅提供文本指令时，GR-MG通过基于扩散模型的图像编辑方法生成目标图像，并结合生成的目标图像与文本进行条件控制。该方法能够在充分利用大量部分标注数据的同时，仍通过自然语言灵活指定任务。为生成准确的目标图像，我们进一步提出一种新颖的“进度引导型目标图像生成模型”，将任务进展信息注入生成过程，以提升生成质量。在仿真实验中，GR-MG将连续执行5个任务的平均完成数量从3.35提升至4.04。在真实机器人实验中，GR-MG成功执行了58项不同任务，分别在简单场景和泛化场景下将成功率从68.7%提升至78.1%，以及从44.4%提升至60.6%。此外，在少样本学习新技能方面，GR-MG也显著优于对比基线方法。项目视频演示、代码及模型检查点已公开，详见项目主页：https://gr-mg.github.io/。