
摘要
精细操作任务,如穿电缆扎带或插入电池,对机器人而言历来极具挑战性,因其需要高度的精度、接触力的精细协调以及闭环视觉反馈。传统上,完成此类任务往往依赖高端机器人、高精度传感器或繁琐的校准过程,这些手段成本高昂且部署复杂。那么,能否通过学习使低成本、低精度的硬件也能够完成这些精细操作?我们提出了一种低成本系统,该系统通过定制化的遥操作界面采集真实操作示范,实现端到端的模仿学习。然而,模仿学习在高精度任务中同样面临自身挑战:策略中的误差可能随时间累积,且人类示范本身可能存在非平稳性。为应对这些问题,我们设计了一种简单但新颖的算法——基于Transformer的动作分块(Action Chunking with Transformers, ACT),该算法学习动作序列的生成模型。实验表明,ACT使机器人仅需约10分钟的真实示范,便可在真实世界中成功完成六项高难度任务,例如打开透明调味品杯、精准插入电池,成功率可达80%至90%。项目主页:https://tonyzhaozh.github.io/aloha/