13 天前

目标表征中的空间与时间抽象的协调

Mehdi Zadem, Sergio Mover, Sao Mai Nguyen
目标表征中的空间与时间抽象的协调
摘要

目标表示对分层强化学习(Hierarchical Reinforcement Learning, HRL)算法的性能具有重要影响,其通过将复杂的学习问题分解为更易处理的子任务来提升学习效率。近期研究表明,能够保留时间抽象环境动态的目标表示方法在解决复杂问题方面表现优异,并能为策略的最优性提供理论保障。然而,这类方法难以扩展至环境动态复杂性显著增加的任务场景,即当时间抽象的转移关系依赖于越来越多的状态变量时,其性能会显著下降。另一方面,已有研究尝试通过空间抽象来缓解上述问题,但其局限性在于难以适应高维环境,且通常依赖于先验知识。本文提出一种新颖的三层分层强化学习算法,在层次结构的不同层级上同时引入空间抽象与时间抽象的目标表示。我们对所学习策略的遗憾(regret)边界进行了理论分析。在复杂的连续控制任务上进行了实验评估,结果表明该方法能够有效学习到具有实际意义的空间与时间抽象,显著提升了算法在复杂环境中的性能。开源代码已发布于:https://github.com/cosynus-lix/STAR。

目标表征中的空间与时间抽象的协调 | 最新论文 | HyperAI超神经