2 个月前
增大行动差距:强化学习的新算子
Marc G. Bellemare; Georg Ostrovski; Arthur Guez; Philip S. Thomas; Rémi Munos

摘要
本文介绍了新的保持最优性的Q函数算子。首先,我们描述了一种适用于表格表示的算子——一致贝尔曼算子(consistent Bellman operator),该算子引入了局部策略一致性的概念。我们证明,这种局部一致性会导致每个状态下的动作差距增加;我们认为,增加这一差距可以减轻近似误差和估计误差对诱导贪婪策略的不利影响。此外,该算子也可应用于离散化的连续空间和时间问题,并且我们在这一背景下提供了实证结果,表明其性能优越。进一步扩展局部一致算子的概念,我们推导出一个算子保持最优性的充分条件,从而形成了一类包括我们的一致贝尔曼算子在内的算子家族。作为推论,我们为Baird的优势学习算法提供了最优性证明,并推导出其他具有有趣性质的动作差距增大的算子。最后,我们在60款Atari 2600游戏中进行了实证研究,展示了这些新算子的强大潜力。