HyperAI超神经

UniSkill:通过跨形体技能表示模仿人类视频

Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee
发布日期: 5/16/2025
UniSkill:通过跨形体技能表示模仿人类视频
摘要

模仿是人类学习的基本机制,使个体能够通过观察和模仿专家来掌握新任务。然而,将这一能力应用于机器人面临重大挑战,因为人类与机器人在视觉外观和物理能力上的根本差异,使得模仿学习变得复杂。虽然以往方法尝试通过跨形体(cross-embodiment)数据集中共享的场景与任务来弥合这一差距,但大规模采集人类与机器人之间对齐的数据在现实中并不容易实现。 在本文中,我们提出了 UniSkill——一种新颖的框架,能够从大规模跨形体视频数据中无监督学习与形体无关的技能表示。这使得从人类视频提示中提取的技能,可以有效迁移到仅在机器人数据上训练的策略中。我们在仿真和现实环境中的实验表明,所学到的跨形体技能能够成功引导机器人选择合适的动作,即使面对从未见过的视频提示,也能有效执行任务。