13 天前
通过深度强化学习实现人类水平的控制
{Shane Legg1 & Demis Hassabis, Daan Wierstra, Dharshan Kumaran, Helen King, Ioannis Antonoglou, Amir Sadik, Charles Beattie, Stig Petersen, Georg Ostrovski, Andreas K. Fidjeland, Martin Riedmiller, Alex Graves, Marc G. Bellemare, Joel Veness, Andrei A. Rusu, David Silver, Koray Kavukcuoglu, Volodymyr Mnih}
摘要
强化学习理论为智能体如何优化对环境的控制提供了一种规范性框架,其根基深植于动物行为的心理学与神经科学视角。然而,在面对接近现实世界复杂性的场景时,若要成功应用强化学习,智能体必须应对一项艰巨任务:从高维感官输入中提取环境的有效表征,并利用这些表征将过往经验泛化至新情境。值得注意的是,人类及其他动物似乎通过强化学习与分层感官处理系统的协同作用,高效解决了这一难题——前者得到了大量神经科学数据的支持,表明多巴胺能神经元产生的脉冲信号与时序差分(temporal difference)强化学习算法之间存在显著对应关系。尽管强化学习智能体在多个领域已取得一定成果,但其应用此前主要局限于可手工设计有效特征的领域,或状态空间完全可观测且维度较低的场景。本文利用深度神经网络训练的最新进展,提出一种新型人工智能体——深度Q网络(deep Q-network),该智能体能够直接从高维感官输入中通过端到端的强化学习机制学习到有效的策略。我们在经典Atari 2600游戏这一极具挑战性的领域中对这一智能体进行了测试。结果表明,该深度Q网络智能体仅以像素输入和游戏得分作为原始信息,便在49款游戏中超越了所有以往算法,其表现达到与专业人类游戏测试者相当的水平,且在整个测试过程中仅使用同一算法、网络架构与超参数设置。此项工作成功弥合了高维感官输入与动作输出之间的鸿沟,首次实现了能够在多种复杂任务中自主学习并达到卓越表现的人工智能代理。