2 个月前
用于深度强化学习的决斗网络架构
Ziyu Wang; Tom Schaul; Matteo Hessel; Hado van Hasselt; Marc Lanctot; Nando de Freitas

摘要
近年来,深度表示在强化学习中的应用取得了许多成功。然而,许多这些应用仍然使用传统的架构,如卷积网络、LSTM(长短期记忆网络)或自编码器。本文中,我们提出了一种新的无模型强化学习神经网络架构。我们的双流网络表示两个独立的估计器:一个用于状态值函数,另一个用于状态依赖的动作优势函数。这种分解的主要好处是在不改变底层强化学习算法的情况下,能够跨动作泛化学习。实验结果表明,该架构在存在大量相似价值动作的情况下,能够实现更好的策略评估。此外,双流架构使我们的强化学习代理在Atari 2600领域超越了现有技术水平。