6 个月前

多任务学习

机器人技术

Tianhe Yu Deirdre Quillen Zhanpeng He Ryan Julian Avnish Narayan Hayden Shively Adithya Bellathur Karol Hausman Chelsea Finn Sergey Levine

摘要

元强化学习算法可通过利用先前经验来学习如何学习，从而显著加快机器人掌握新技能的速度。然而，当前大多数元强化学习研究集中于任务分布极为狭窄的情形。例如，常用的元强化学习基准测试中，将模拟机器人以不同跑步速度运行作为不同的任务。当策略在如此狭窄的任务分布上进行元训练时，其根本无法泛化至快速习得完全全新的任务。因此，若这些方法的目标在于实现对全新行为的快速获取，就必须在足够宽泛的任务分布上进行评估，以确保对新行为具备泛化能力。本文提出一个开源的模拟基准测试平台，用于元强化学习与多任务学习，包含50个不同的机器人操作任务。我们的目标是推动算法的发展，使其能够实现对全新、未见任务的泛化，从而加速新技能的学习。我们在这些任务上评估了7种最先进的元强化学习与多任务学习算法。令人意外的是，尽管每个任务及其变体（如不同物体位置）均可被合理地学习，但这些算法在同时处理多个任务时表现不佳，即便训练任务数量仅有十个左右也是如此。我们的分析结果与开源环境为未来在多任务学习与元学习领域的研究铺平了道路，有助于实现真正有意义的泛化能力，从而充分释放这些方法的潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

机器人技术

Tianhe Yu Deirdre Quillen Zhanpeng He Ryan Julian Avnish Narayan Hayden Shively Adithya Bellathur Karol Hausman Chelsea Finn Sergey Levine

摘要

元强化学习算法可通过利用先前经验来学习如何学习，从而显著加快机器人掌握新技能的速度。然而，当前大多数元强化学习研究集中于任务分布极为狭窄的情形。例如，常用的元强化学习基准测试中，将模拟机器人以不同跑步速度运行作为不同的任务。当策略在如此狭窄的任务分布上进行元训练时，其根本无法泛化至快速习得完全全新的任务。因此，若这些方法的目标在于实现对全新行为的快速获取，就必须在足够宽泛的任务分布上进行评估，以确保对新行为具备泛化能力。本文提出一个开源的模拟基准测试平台，用于元强化学习与多任务学习，包含50个不同的机器人操作任务。我们的目标是推动算法的发展，使其能够实现对全新、未见任务的泛化，从而加速新技能的学习。我们在这些任务上评估了7种最先进的元强化学习与多任务学习算法。令人意外的是，尽管每个任务及其变体（如不同物体位置）均可被合理地学习，但这些算法在同时处理多个任务时表现不佳，即便训练任务数量仅有十个左右也是如此。我们的分析结果与开源环境为未来在多任务学习与元学习领域的研究铺平了道路，有助于实现真正有意义的泛化能力，从而充分释放这些方法的潜力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供