2 个月前
基于指令的历史感知策略用于机器人操作
Pierre-Louis Guhur; Shizhe Chen; Ricardo Garcia; Makarand Tapaswi; Ivan Laptev; Cordelia Schmid

摘要
在人类环境中,机器人被期望能够在简单的自然语言指令下完成各种操作任务。然而,机器人操作极具挑战性,因为它需要精细的运动控制、长期记忆以及对先前未见过的任务和环境的泛化能力。为了解决这些挑战,我们提出了一种统一的基于变压器(Transformer)的方法,该方法考虑了多种输入。具体而言,我们的变压器架构集成了(i)自然语言指令和(ii)多视角场景观察,同时(iii)跟踪完整的观察和动作历史。这种方法能够学习历史与指令之间的依赖关系,并利用多视角提高操作精度。我们在具有挑战性的RLBench基准测试和实际机器人上评估了我们的方法。值得注意的是,我们的方法可以扩展到74个不同的RLBench任务,并且超越了现有技术。此外,我们还解决了指令条件下的任务,并展示了对先前未见过的变化的出色泛化能力。