15 天前

基于模型的离线强化学习中的悲观调节动态信念

Kaiyang Guo, Yunfeng Shao, Yanhui Geng
基于模型的离线强化学习中的悲观调节动态信念
摘要

基于模型的离线强化学习(Model-based Offline Reinforcement Learning, RL)旨在利用预先收集的静态数据集和一个动态模型,寻找具有高回报的策略。尽管动态模型通过复用静态数据集进行学习,若能合理利用,其泛化能力有望促进策略的学习。为此,已有若干研究提出通过量化预测动态模型的不确定性,并将其显式地用于惩罚奖励,以增强策略的鲁棒性。然而,在马尔可夫决策过程(MDP)的语境下,动态模型与奖励函数本质上属于不同维度的因素,仅通过奖励惩罚来表征动态不确定性,可能在模型利用与风险规避之间引入不可预期的权衡。本文提出一种新方法:维持对动态模型的信念分布(belief distribution),并通过从该信念分布中进行偏向悲观性的采样来评估或优化策略。该采样过程基于离线强化学习的交替马尔可夫博弈(alternating Markov game)形式化建模推导而来。我们从理论上证明,这种偏向悲观的采样机制自然地诱导出一种与策略相关的重加权动态信念更新机制,称为悲观调制动态信念(Pessimism-Modulated Dynamics Belief, PMDB)。为提升策略性能,我们设计了一种迭代正则化策略优化算法,用于求解该博弈模型,并在特定条件下保证策略的单调改进。为实现实际应用,我们进一步提出一种离线强化学习算法,以近似求解该优化问题。实验结果表明,所提出的算法在多种基准任务上均取得了当前最优的性能表现。