
摘要
近期在深度强化学习领域的进展已经在围棋和Atari游戏等应用中取得了显著的性能提升。然而,开发出能够在复杂领域内有效平衡探索与利用的实用方法仍然是一个尚未解决的问题。汤普森采样(Thompson Sampling)及其在强化学习中的扩展提供了一种优雅的探索方法,该方法仅需要访问模型的后验样本。与此同时,近似贝叶斯方法的进步使得灵活神经网络模型的后验近似成为可能。因此,在汤普森采样的框架下考虑近似贝叶斯神经网络变得非常有吸引力。为了理解使用近似后验对汤普森采样的影响,我们对一系列上下文多臂赌博机问题进行了基准测试,评估了已建立的方法和最近开发的方法在结合汤普森采样时的表现。研究发现,许多在监督学习设置中表现良好的方法在顺序决策场景中却表现不佳。特别是,我们将缓慢收敛的不确定性估计适应于在线环境所面临的挑战进行了突出强调。