
摘要
在强化学习中,参数化动作由离散动作和连续动作参数组成。这为解决需要将高层次动作与灵活控制相结合的复杂领域提供了一个框架。最近的P-DQN算法扩展了深度Q网络,以学习这种动作空间。然而,该算法将所有动作参数视为Q网络的单一联合输入,从而破坏了其理论基础。我们分析了这种方法存在的问题,并提出了一种新的方法——多遍深度Q网络(MP-DQN),以解决这些问题。通过实验验证,我们证明MP-DQN在数据效率和收敛策略性能方面显著优于P-DQN和其他先前的算法,在平台、机器人足球射门和半场进攻等领域表现尤为突出。