
摘要
在强化学习中,通常很难在动态环境中自动化高维、快速决策,特别是在需要实时在线互动和适应策略的领域,如基于网络的游戏。本研究提出了一种先进的灵活深度Q网络(Flexible Deep Q-Network, FDQN)框架,该框架通过自适应方法解决了这一挑战。该方法利用卷积神经网络(CNN)实时处理高维感官数据,并根据不同游戏环境中的变化动作空间动态调整模型架构,在多种Atari游戏和Chrome恐龙游戏中超越了先前的基准模型。通过使用ε-贪婪策略,该框架有效平衡了新的学习和利用过程,从而提高了性能。此外,FDQN框架采用了模块化结构设计,可以轻松适应其他基于HTML的游戏,而无需修改框架的核心部分。实验表明,FDQN框架在实验室条件下成功解决了明确定义的任务,但更重要的是,本文还讨论了其在更具挑战性的现实世界案例中的潜在应用,并为未来进一步探索自动化游戏玩法及其他领域提供了起点。