2 个月前
IMPALA:基于重要性加权行为者-学习者架构的可扩展分布式深度强化学习
Lasse Espeholt; Hubert Soyer; Remi Munos; Karen Simonyan; Volodymir Mnih; Tom Ward; Yotam Doron; Vlad Firoiu; Tim Harley; Iain Dunning; Shane Legg; Koray Kavukcuoglu

摘要
在本研究中,我们的目标是使用单一的强化学习代理及其单一参数集来解决大量任务。一个关键挑战是如何处理增加的数据量和延长的训练时间。我们开发了一种新的分布式代理IMPALA(重要性加权行为者-学习者架构),该代理不仅在单机训练中更高效地利用资源,而且可以扩展到数千台机器,同时不会牺牲数据效率或资源利用率。通过结合解耦的行为与学习以及一种称为V-trace的新颖离策略校正方法,我们实现了高吞吐量下的稳定学习。我们在DMLab-30(DeepMind Lab环境中的30个任务集合(Beattie等人,2016))和Atari-57(Arcade Learning Environment中的所有可用Atari游戏(Bellemare等人,2013a))上展示了IMPALA在多任务强化学习中的有效性。实验结果表明,IMPALA能够在使用较少数据的情况下实现比以往代理更好的性能,并且由于其多任务方法的关键作用,表现出任务之间的正向迁移。