
摘要
多任务学习是强化学习中一个极具挑战性的问题。尽管联合训练多个任务能够使策略在不同任务间共享参数,但其优化问题变得极为复杂:目前尚不明确网络中哪些参数应跨任务复用,以及来自不同任务的梯度如何相互干扰。因此,为避免简单地在任务间直接共享参数,我们提出一种显式的模块化策略表示方法,以缓解这一优化难题。在给定一个基础策略网络的基础上,我们设计了一种路由网络,用于估计不同的路由策略,从而针对每个任务动态重构基础网络。与直接为每个任务选择固定路径不同,我们的任务特定策略采用一种称为“软模块化”(soft modularization)的方法,对所有可能的路径进行软性组合,从而更适用于序列化任务场景。我们在多种机器人操作任务的仿真环境中进行了实验,结果表明,与强基线方法相比,本方法在样本效率和任务性能方面均实现了显著提升。