Command Palette
Search for a command to run...

摘要
灵巧操作对于推动机器人在现实场景中的应用能力至关重要,然而,多样且高质量的数据集仍然十分稀缺。现有的数据采集方法要么依赖人工远程操控,要么需要大量人工工程设计,或生成的数据多样性有限,从而限制了其可扩展性和泛化能力。本文提出 DexFlyWheel,一种可扩展的数据生成框架,通过自增强循环机制持续提升数据多样性。该框架从高效的初始示范数据预热开始,通过迭代循环逐步扩展数据集。每一循环均遵循一个闭环流程,包含模仿学习(Imitation Learning, IL)、残差强化学习(residual Reinforcement Learning, RL)、轨迹 rollout 收集以及数据增强等环节。具体而言,模仿学习从示范数据中提取类人行为模式,残差强化学习则进一步提升策略的泛化能力。随后,所学习到的策略用于在仿真环境中生成轨迹,这些轨迹在多种环境配置和空间布局下经过进一步增强后,被反馈至下一循环。经过多轮迭代,形成一种自我增强的数据飞轮效应,生成覆盖多样化场景的数据集,从而实现策略性能的持续提升。实验结果表明,DexFlyWheel 在四个具有挑战性的任务上生成了超过 2,000 条多样化的示范数据。基于该数据集训练的策略在挑战性测试集上平均成功率达 81.9%,并通过数字孪生技术成功迁移到真实世界,在双臂抓举任务中实现了 78.3% 的成功率。