17 天前
Meta-World:多任务与元强化学习的基准测试与评估
Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Avnish Narayan, Hayden Shively, Adithya Bellathur, Karol Hausman, Chelsea Finn, Sergey Levine

摘要
元强化学习算法可通过利用先前经验来学习如何学习,从而显著加快机器人掌握新技能的速度。然而,当前大多数元强化学习研究集中于任务分布极为狭窄的情形。例如,常用的元强化学习基准测试中,将模拟机器人以不同跑步速度运行作为不同的任务。当策略在如此狭窄的任务分布上进行元训练时,其根本无法泛化至快速习得完全全新的任务。因此,若这些方法的目标在于实现对全新行为的快速获取,就必须在足够宽泛的任务分布上进行评估,以确保对新行为具备泛化能力。本文提出一个开源的模拟基准测试平台,用于元强化学习与多任务学习,包含50个不同的机器人操作任务。我们的目标是推动算法的发展,使其能够实现对全新、未见任务的泛化,从而加速新技能的学习。我们在这些任务上评估了7种最先进的元强化学习与多任务学习算法。令人意外的是,尽管每个任务及其变体(如不同物体位置)均可被合理地学习,但这些算法在同时处理多个任务时表现不佳,即便训练任务数量仅有十个左右也是如此。我们的分析结果与开源环境为未来在多任务学习与元学习领域的研究铺平了道路,有助于实现真正有意义的泛化能力,从而充分释放这些方法的潜力。