2 个月前

利用深度预测模型激励强化学习中的探索

Bradly C. Stadie; Sergey Levine; Pieter Abbeel
利用深度预测模型激励强化学习中的探索
摘要

在复杂的领域中实现高效且可扩展的探索是强化学习面临的主要挑战之一。虽然贝叶斯方法和PAC-MDP(概率近似正确马尔可夫决策过程)方法在探索问题上提供了强大的形式化保证,但由于它们依赖于枚举状态-动作空间,在高维情况下通常难以实际应用。因此,在复杂领域中的探索往往采用简单的ε-贪婪方法。本文中,我们考虑了具有挑战性的Atari游戏领域,该领域需要处理原始像素输入和延迟奖励。我们评估了几种更为复杂的探索策略,包括汤普森采样(Thompson sampling)和玻尔兹曼探索(Boltzman exploration),并提出了一种新的基于系统动力学模型并发学习来分配探索奖金的方法。通过使用神经网络参数化我们的学习模型,我们能够开发出一种适用于具有复杂、高维状态空间任务的可扩展且高效的探索奖金方法。在Atari游戏领域中,我们的方法在一系列对先前方法构成重大挑战的游戏上表现出最一致的改进效果。除了原始游戏得分外,我们还为Atari学习领域开发了一个AUC-100指标,以评估探索策略对这一基准测试的影响。