18 天前

在 Meta-World 中对多任务学习与元强化学习中的策略蒸馏进行分析

{Nathan Blair, Victor Chan and Adarsh Karnati}
在 Meta-World 中对多任务学习与元强化学习中的策略蒸馏进行分析
摘要

策略蒸馏(Policy Distillation)将马尔可夫决策过程(Markov Decision Process, MDP)划分为若干子区域,并在每个子区域内分别学习专家策略,随后将这些局部策略整合为一个覆盖整个状态空间的全局策略。这一方法类似于一支体育团队中不同位置的球员各自发挥专长,共同为团队目标服务。策略蒸馏利用MDP的结构特性,首先训练针对特定分区的局部专家策略,这些策略无需具备广泛的泛化能力。当这些局部专家策略被整合为一个全局策略时,它们各自贡献在所属分区中学到的特征。当全局策略面临状态空间中的某一特定区域时,能够有效利用该区域对应的局部策略所学习到的特征。元强化学习(Meta-Reinforcement Learning)与多任务学习(Multi-Task Learning)是两个高度交织的研究领域。元强化学习旨在基于先前经验快速适应新任务,而多任务学习则更关注算法在同时面对广泛任务分布时的泛化能力。然而,成功的元学习通常与优异的多任务学习表现密切相关,反之亦然。一个能够快速适应新任务的智能体,本质上在学习该任务时更具优势;同样,一个已在大量任务上实现良好泛化的智能体,在面对新但相关任务时也更可能快速掌握。由于元学习与多任务学习均包含多个独立任务,因此天然适合采用分区策略。尽管策略蒸馏在多任务学习中已展现出潜力,但相关研究仍较为有限,且成果尚未得到充分探索。本文探讨了一种策略蒸馏算法——“分而治之”(Divide-and-Conquer, DnC)在Meta-World基准测试中的应用。“分而治之”(DnC)是一种基于上下文(context)来表征状态空间分区信息的策略蒸馏算法。基于这些上下文,局部策略通过引入KL散度约束进行训练,以保持各局部策略之间的相似性;随后,通过另一项KL散度约束将这些局部策略整合为一个全局策略。Meta-World是用于多任务学习与元学习研究的新一代基准测试平台。本文采用信任区域策略优化(Trust-Region Policy Optimization, TRPO)作为基线方法,评估DnC在元学习(ML)与多任务学习(MT)两个基准上的表现。在元学习基准中,DnC将状态空间按独立任务进行划分。在元训练阶段,仅使用训练任务作为DnC的分区,不包含测试任务;完成元训练后,获得最终的全局策略,并将其应用于测试任务以评估最终奖励与成功率。在多任务学习基准中,同样按独立任务对状态空间进行划分,但不存在预留的测试任务——DnC在全部任务上进行训练,并在所有任务上进行测试。此外,每个任务还包含可变的目标状态,因此局部策略必须学会适应这些变化的状态。全局策略不仅需要掌握各个独立训练任务的求解方法,还需具备在每个任务内部适应不同目标状态的能力。实验结果表明,在元学习基准上,DnC的表现与基线方法TRPO相当。当将状态空间按独立任务进行划分时,局部策略能够以约4%–5%的成功率有效学习并解决各自对应的任务。由这些局部专家策略构成的全局策略,在性能与成功率方面与局部策略保持一致。在多任务学习基准上,DnC取得了约65%的成功率。我们认为,由于DnC是一种策略蒸馏算法,且多任务学习的训练与测试环境包含相同任务,DnC能够“记忆”每个独立任务的解决方案,因此在测试阶段对所有任务均表现良好。然而,在元学习场景中,DnC在面对全新测试任务时难以有效适应,导致其性能远不及在多任务学习场景中的表现。