8 个月前

摘要

设计一种在多种机器人和任务配置中均能表现出色的通用策略架构仍然是一个关键挑战。在这项工作中，我们通过将机器人动作表示为序列数据，并利用自回归序列建模生成动作来解决这一问题。现有的自回归架构将末端执行器的路径点依次生成为语言模型中的单词标记，这仅适用于低频控制任务。与语言不同，机器人动作具有异质性，通常包含连续值——如关节位置、2D像素坐标和末端执行器姿态——这些值不适合基于语言的建模。基于这一见解，我们引入了一种简单的增强方法：我们将因果变换器的单标记预测扩展为支持在单个步骤中预测可变数量的标记，通过我们的分块因果变换器（Chunking Causal Transformer, CCT）实现这一目标。这种增强方法使得在各种控制频率的任务中都能表现出稳健的性能，减少了自回归步骤的数量，从而提高了效率，并导致了混合动作序列的设计——通过混合不同类型的动作并为每种动作类型使用不同的分块大小。基于CCT，我们提出了自回归策略（Autoregressive Policy, ARP）架构，该架构通过生成混合动作序列来解决操作任务。我们在包括Push-T、ALOHA和RLBench在内的多种机器人操作环境中评估了ARP，并展示了ARP作为一种通用架构，在所有测试基准中均能达到或超过特定环境下的最先进水平，同时在计算和参数规模上更加高效。我们的实际机器人演示视频、所有源代码以及预训练的ARP模型可以在http://github.com/mlzxy/arp找到。

源 PDF