摘要

我们提出了首个成功利用强化学习从高维感官输入中直接学习控制策略的深度学习模型。该模型是一个卷积神经网络，采用Q-learning的一种变体进行训练，其输入为原始像素，输出为估计未来奖励的价值函数。我们将该方法应用于Arcade Learning Environment中的七款Atari 2600游戏，且未对架构或学习算法进行任何调整。研究结果表明，该模型在六款游戏中超越了所有先前的方法，并在其中三款游戏中超过了人类专家的表现。

源 PDF 查看代码