2 个月前

多任务深度强化学习中的PopArt方法

Matteo Hessel; Hubert Soyer; Lasse Espeholt; Wojciech Czarnecki; Simon Schmitt; Hado van Hasselt

摘要

强化学习社区在设计能够超越人类在特定任务上表现的算法方面取得了显著进展。这些算法大多是一次训练一个任务，每个新任务都需要训练一个新的代理实例。这意味着学习算法本身是通用的，但每个解决方案却不是；每个代理只能解决其被训练的任务。在这项研究中，我们探讨了同时掌握多个顺序决策任务的问题。多任务学习中的一个普遍问题是必须在多个竞争有限资源的任务之间找到平衡。许多学习算法可能会因某些任务而分心，这些任务在要解决的任务集中显得更为突出，例如由于任务内奖励的密度或幅度较高。这导致算法过度关注那些突出的任务，而牺牲了通用性。我们提出自动调整每个任务对代理更新的贡献度，以确保所有任务对学习动态的影响相似。这一方法在57款多样化的Atari游戏中实现了最先进的性能，令人兴奋的是，我们的方法学会了单一策略——使用单一权重集——超过了中位数的人类表现。据我们所知，这是首次有单个代理在这个多任务领域超越了人类水平的表现。同样的方法还在DeepMind Lab（3D强化学习平台）的一组30个任务中展示了最先进的性能。