17 天前

可解释决策树的进化学习

Leonardo Lucio Custode, Giovanni Iacca
可解释决策树的进化学习
摘要

过去十年中,强化学习技术在多个任务上已达到人类水平的表现。然而,近年来对可解释性的需求日益凸显:我们不仅需要理解系统的工作机制,还需明确其决策背后的逻辑。可解释性不仅有助于评估系统安全性,还能帮助我们从未知问题中提取知识。尽管已有部分研究尝试通过优化决策树来提升强化学习的可解释性,但这些方法通常依赖贪心算法,或未能充分利用环境提供的奖励信号,因而容易陷入局部最优解。本文提出一种新颖的可解释强化学习方法,该方法基于决策树结构,并引入两层优化机制,融合进化算法与Q-learning的优势。通过该机制,我们将问题分解为两个子问题:一是对状态空间进行有意义且有效的划分,二是为每个状态分配相应的动作。我们在三个经典的强化学习基准任务上对所提方法进行了测试,结果表明,该方法在性能与可解释性方面均达到了与当前最先进方法相当的水平。最后,我们开展消融实验,验证了两层优化机制在复杂非平凡环境中的优越性,相较于单层优化方法,显著提升了整体性能。