Command Palette
Search for a command to run...
RoboPocket:通过手机即时提升机器人策略
RoboPocket:通过手机即时提升机器人策略
Junjie Fang Wendi Chen Han Xue Fangyuan Zhou Tian Le Yi Wang Yuting Zhang Jun Lv Chuan Wen Cewu Lu
摘要
模仿学习的扩展从根本上受限于数据收集的效率。尽管手持式接口已成为野外数据采集的可扩展解决方案,但其主要采用开环模式:操作者在不知晓底层策略弱点的情况下盲目收集演示数据,导致关键状态分布的覆盖效率低下。相比之下,交互式方法(如 DAgger)虽能有效应对协变量偏移问题,却依赖于实体机器人的执行,成本高昂且难以扩展。为调和这一权衡,我们提出了 RoboPocket——一种便携式系统,支持仅利用单台消费级智能手机实现“无机器人即时策略迭代”。其核心创新在于一种远程推理框架,该框架通过增强现实(AR)视觉前馈技术,将策略预测的轨迹进行可视化呈现。这种沉浸式反馈使数据收集者能够主动识别潜在故障,并将数据采集聚焦于策略的薄弱区域,而无需依赖实体机器人。此外,我们实现了一条异步在线微调流水线,可持续利用新流入的数据更新策略,从而在数分钟内有效闭环学习过程。大量实验表明,RoboPocket 遵循数据缩放定律,相较于离线扩展策略,其数据效率提升了一倍,突破了长期存在的效率瓶颈。 Furthermore,我们的即时迭代循环在分布式环境中,仅需每人进行少量交互式修正,即可将样本效率提升高达 2 倍。项目主页及视频链接:https://robo-pocket.github.io。
一句话总结
上海交通大学与 Noematrix 有限公司的研究人员推出了 RoboPocket,这是一个基于智能手机的系统,利用增强现实(AR)视觉预见功能实现无需机器人的即时策略迭代。该系统使用户能够主动识别失败并快速优化策略,相比传统离线方法,数据效率提升了一倍。
主要贡献
- RoboPocket 通过将被动的手持数据采集转变为主动的、计算引导的工作流,解决了机器人学习中的可扩展性瓶颈,提供实时的设备端反馈以生成更高质量的演示数据。
- 该系统引入了一种新颖的“无需机器人即时策略迭代”范式,利用 AR 视觉预见功能可视化预测轨迹,使用户无需部署物理机器人即可主动识别并修正策略缺陷。
- 在多种操作任务上的实验表明,该方法遵循数据缩放定律,相比离线策略实现了高达 2 倍的数据效率提升,同时支持快速分布式学习。
引言
在机器人领域扩展模仿学习受到物理机器人数据采集成本高、物流困难等因素的阻碍。以往的手持接口虽然允许无需机器人的数据采集,但采用开环模式,迫使用户在不知晓当前策略失效位置的情况下盲目记录演示。相反,能够修正这些失效的交互式方法需要部署物理机器人,这不仅缓慢、存在风险,且难以在分布式环境中扩展。作者提出了 RoboPocket,该系统利用增强现实视觉预见功能,将策略的预测轨迹直接投射到用户屏幕上,将消费级智能手机转变为机器人学习的智能副驾驶。这种方法使用户能够在几分钟内无需物理机器人即可主动识别并修正策略缺陷,同时通过异步在线微调管道即时利用新数据更新模型,从而形成完整的学习闭环。
数据集
-
数据集构成与来源:作者构建了一个用于“鼠标排列”任务的数据集,以验证数据缩放定律。该数据集源自 32 个不同的环境和 47 对独特的物体组合。环境涵盖室内和室外场景,以确保光照条件和纹理的多样性;物体组合则由各种鼠标和鼠标垫搭配而成。
-
每个子集的关键细节:
- 环境选择:在 32 个环境中的每一个内,随机选择两对物体进行数据采集。
- 演示数量:团队为每个“环境 - 物体对”组合收集 25 次演示。
- 评估设置:测试在 3 个不同场景中进行,利用 2 种初始机器人姿态和 3 种初始物体姿态来评估泛化能力。
-
模型使用与训练策略:遵循《数据缩放定律》的协议,作者利用该数据集验证 RoboPocket 系统生成的数据是否高质量且符合幂律缩放关系。研究强调,对于零样本泛化而言,增加环境和物体的多样性比单纯增加每个场景的演示数量更为关键。
-
处理与硬件配置:
- 物理设置:数据采集使用配备 Robotiq 2F-85 自适应夹爪的 Flexiv Rizon 4 机械臂,夹爪上安装了 TPU 软指以匹配手持采集器。
- 数据流:安装在夹爪上的 iPhone 将摄像头画面实时流式传输到工作站,该工作站同时充当数据服务节点和训练服务器。
- 基础设施:系统运行在一台配备 Intel Core i9-12900K CPU 和 NVIDIA GeForce RTX 3090 GPU 的工作站上,由 EcoFlow DELTA 3 MAX 便携式电源供电。
- 推理:在无需机器人的即时策略迭代期间,另一台配备 Intel Core i9-13900K CPU 和 NVIDIA GeForce RTX 4090 GPU 的工作站作为推理服务器。
方法
作者提出了 RoboPocket,这是一个旨在从被动数据记录转向计算引导学习的系统。请参阅框架图,该图对比了传统的离线迭代循环(以反馈延迟长和场景有限为特征)与所提出的无需物理机器人的即时策略更新流程。这一新工作流程通过策略更新、遵循策略意图和收集修正这三个步骤的循环,实现了分布式环境和即时策略更新。
该系统依赖于专门的软硬件协同设计,以确保物理一致性和实时交互。请参阅硬件和软件接口图,其中详细说明了同构夹爪、鱼眼镜头以及基于 AR 的交互设计。硬件架构利用 iPhone Pro 作为边缘计算中心,运行实时 VIO 和运动学求解。它配备了一个同构自适应夹爪,复现了目标机器人的欠驱动动力学,以最小化具身差距。此外,定制的鱼眼镜头扩展了视觉上下文,而磁编码器则以高保真度捕捉夹爪宽度。在软件方面,界面通过 SLAM 监控和机载逆运动学(IK)求解器提供主动数据验证,并具备 AR 轨迹回放功能,允许用户实时可视化末端执行器路径。
驱动系统设计的核心研究问题是如何高效地收集机器人实际需要的特定数据分布。作者将机器人操作任务形式化为由元组 (S,A,P,R,γ) 定义的马尔可夫决策过程(MDP)。标准的模仿学习利用静态数据集训练策略 πθ(at∣st),以最小化与专家分布的散度。然而,由于误差累积,策略不可避免地会遇到分布外(OOD)状态。形式上,目标是最小化诱导分布下的损失:
J(π)=Es∼dπ[ℓ(π(s),π∗(s))]
为了促进持续学习,后端采用了分布式服务器架构。请参阅系统架构图,该图展示了从人类操作员识别弱点到训练服务器执行在线微调的流程。该过程始于人类操作员在现实世界中识别预期的失效或 OOD 状态。收集到的修正数据立即流式传输到数据服务节点。训练服务器随后使用加权采样策略执行在线微调,构建包含 50% 原始离线数据集和 50% 新在线数据集的批次,以防止灾难性遗忘。最后,更新后的模型权重同步到推理服务器,实现了低于 150 毫秒的往返延迟。这种架构形成了一个紧密的反馈循环:用户看到失效,收集修正数据,AR 可视化在几分钟内反映出更新后策略的改进行为。
实验
- 系统能力验证确认,RoboPocket 实现了高保真的轨迹跟踪,其稳定性优于标准 SLAM 系统,同时通过在线处理显著减少了数据采集时间,并确保物理上合理的运动数据。
- 数据缩放定律的验证表明,策略在多样化物体排列上的性能遵循幂律,证明了该系统适用于大规模机器人学习。
- 在四项具有挑战性的操作任务上的实验表明,无需机器人的即时策略迭代通过实现针对失效恢复数据的定向采集,打破了标准模仿学习的性能瓶颈,在无需物理机器人访问的情况下取得了与专家手动干预相当的结果。
- 跨多个环境的分布式部署显示,该系统促进了快速的策略适应和鲁棒的泛化,使用户能够通过最少的交互式修正,在新场景中大幅提高成功率。
- 用户研究表明,非专家参与者能够有效利用实时反馈和虚拟预见功能来识别模型弱点,所收集的修正数据在状态覆盖面上可与经验丰富的实验者相媲美。