2 个月前

斗兽场:机器人操作泛化能力评估基准

Wilbert Pumacay; Ishika Singh; Jiafei Duan; Ranjay Krishna; Jesse Thomason; Dieter Fox
斗兽场:机器人操作泛化能力评估基准
摘要

为了实现有效的大型、现实世界的机器人应用,我们必须评估机器人策略在环境条件变化时的适应能力。遗憾的是,大多数研究在与训练环境非常相似甚至完全相同的环境中评估机器人的性能。我们提出了THE COLOSSEUM,这是一个包含20个多样化操作任务的新颖仿真基准测试平台,能够系统地评估模型在14个环境扰动轴上的表现。这些扰动包括物体、桌面和背景的颜色、纹理和尺寸的变化;我们还改变了光照、干扰物、物理属性扰动以及相机姿态。通过THE COLOSSEUM,我们将5种最先进的操作模型进行了比较,结果显示它们在这些扰动因素下的成功率下降了30%-50%。当多个扰动同时应用时,成功率下降幅度达到75%或更高。我们发现,改变干扰物的数量、目标物体的颜色或光照条件是最能降低模型性能的扰动因素。为了验证我们的结果的生态有效性,我们展示了仿真结果与现实世界实验中类似扰动的相关性($\bar{R}^2 = 0.614$)。我们开源了代码供其他人使用THE COLOSSEUM,并发布了用于3D打印以复制现实世界扰动的物体的代码。最终,我们希望THE COLOSSEUM能够作为一个基准测试平台,帮助识别那些能够系统性提高操作泛化能力的建模决策。更多详情请参见https://robot-colosseum.github.io/。

斗兽场:机器人操作泛化能力评估基准 | 最新论文 | HyperAI超神经