13 天前

R3M：一种通用的机器人操作视觉表征

Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav Gupta

摘要

我们研究了在多样化的人类视频数据上预训练的视觉表征，如何促进下游机器人操作任务的数据高效学习。具体而言，我们利用Ego4D人类视频数据集，通过时间对比学习、视频-语言对齐以及L1正则化相结合的方式，对视觉表征进行预训练，以促使表征具有稀疏性和紧凑性。由此得到的表征模型R3M可作为冻结的感知模块，用于下游策略学习。在一组12个模拟机器人操作任务中，R3M相较于从零开始训练的方法，任务成功率提升超过20%；相较于当前最先进的视觉表征模型（如CLIP和MoCo），成功率提升也超过10%。此外，R3M使Franka Emika Panda机械臂仅通过20次示范，便能在真实且杂乱的公寓环境中学会多种操作任务。代码与预训练模型已公开，可通过 https://tinyurl.com/robotr3m 获取。