15 天前

Perceiver-Actor:一种用于机器人操作的多任务Transformer

Mohit Shridhar, Lucas Manuelli, Dieter Fox
Perceiver-Actor:一种用于机器人操作的多任务Transformer
摘要

Transformer模型凭借其在大规模数据集上的可扩展性,彻底革新了视觉与自然语言处理领域。然而,在机器人操作任务中,数据既稀缺又昂贵。在恰当的问题建模下,机器人操作是否仍能从Transformer架构中获益?为此,我们提出了PerAct——一种基于语言条件的多任务6自由度(6-DoF)操作行为克隆代理。PerAct采用Perceiver Transformer对语言目标和RGB-D体素化观测进行编码,并通过“检测下一个最优体素动作”的方式输出离散动作。与基于2D图像的框架不同,体素化的3D观测与动作空间为学习6-DoF操作提供了强有力的结构先验,从而显著提升了学习效率。基于这一建模方式,我们仅需每项任务少量示范,即可训练一个单一的多任务Transformer,完成18个RLBench任务(共249种变体)以及7个真实世界任务(共18种变体)。实验结果表明,PerAct在一系列桌面操作任务中显著优于无结构化的图像到动作代理以及3D卷积神经网络(3D ConvNet)基线方法。