11 天前

Koopman Q-learning:基于动力学对称性的离线强化学习

Matthias Weissenbacher, Samarth Sinha, Animesh Garg, Yoshinobu Kawahara
Koopman Q-learning:基于动力学对称性的离线强化学习
摘要

离线强化学习利用大规模数据集在不与环境交互的情况下训练策略,所学习到的策略可部署于交互成本高昂或存在危险的真实场景中。然而,当前算法容易对训练数据集过拟合,导致在面对环境分布外的泛化情形时性能显著下降。为解决这一局限,本文提出学习一种Koopman隐变量表征,以推断系统底层动态的对称性。该对称性信息被用于在训练过程中扩展原本静态的离线数据集,从而构建一种新颖的数据增强框架。该框架反映了系统的动态特性,可被理解为对环境相空间的探索。为提取系统对称性,我们采用Koopman理论,将非线性动态在系统观测函数空间中以线性算子的形式进行表示,从而可直接推导出动态的对称性。本文还提供了关于控制类系统(如强化学习场景)中对称性存在性与性质的全新理论结果。此外,我们在多个基准离线强化学习任务与数据集(包括D4RL、MetaWorld和Robosuite)上对所提方法进行了实证评估,结果表明,通过采用本框架,我们能够持续提升无模型Q学习方法的现有技术水平。

Koopman Q-learning:基于动力学对称性的离线强化学习 | 最新论文 | HyperAI超神经