Command Palette

Search for a command to run...

6 小时前

VIRAL:面向人形机器人运动操作的规模化视觉仿真到现实迁移

VIRAL:面向人形机器人运动操作的规模化视觉仿真到现实迁移

摘要

实现人形机器人在现实世界中部署的关键障碍在于缺乏自主的运动与操作(loco-manipulation)能力。我们提出 VIRAL,一个基于视觉的“模拟到现实”(sim-to-real)框架,该框架完全在仿真环境中学习人形机器人的运动与操作能力,并以零样本(zero-shot)方式直接部署到真实硬件上。VIRAL 采用“教师-学生”(teacher-student)架构:由一个具有完整状态观测能力的强化学习(RL)教师模型,使用增量动作空间(delta action space)和参考状态初始化,学习长时程的运动与操作任务;随后,通过大规模仿真(采用分块渲染技术)将该教师模型的知识蒸馏(distill)为一个基于视觉的、仅依赖RGB图像的“学生”策略,其训练方法结合了在线 DAgger 与行为克隆(behavior cloning)的混合策略。我们发现,计算资源的规模至关重要:将仿真扩展至数十个GPU(最高达64个)可使教师与学生模型的训练均稳定可靠,而低算力环境则常导致训练失败。为弥合仿真与现实之间的差距,VIRAL 结合了大规模的视觉域随机化(visual domain randomization),涵盖光照、材质、相机参数、图像质量及传感器延迟等多个方面,同时实现了对灵巧手与相机的“现实到仿真”(real-to-sim)对齐。在 Unitree G1 人形机器人上部署后,所获得的基于RGB图像的策略可实现长达54个周期的连续运动与操作,且在未进行任何真实世界微调的情况下,即可泛化至多样的空间布局与外观变化,其性能已接近专家级遥操作水平。大量消融实验深入剖析了实现基于RGB图像的人形机器人运动与操作在实际应用中所必需的关键设计选择。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供