17 天前
任意步长动态模型提升在线与离线强化学习中的未来预测性能
Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu

摘要
基于模型的强化学习方法通过在动态模型中促进策略探索,为提升数据效率提供了有前景的途径。然而,由于采用自举式预测(bootstrapping prediction)——即当前状态的预测结果被用于推断下一状态——导致动态模型在多步预测过程中难以准确捕捉序列变化,进而引发误差累积问题。为缓解这一挑战,本文提出任意步长动态模型(Any-step Dynamics Model, ADM),通过将自举式预测降为直接预测,有效抑制了误差的累积。ADM支持以可变长度的计划(plan)作为输入,直接预测未来状态,从而减少对频繁自举的依赖。基于ADM,我们设计了两种算法:ADMPO-ON与ADMPO-OFF,分别应用于在线与离线的基于模型强化学习框架。在在线设置下,ADMPO-ON相较于以往最先进方法展现出更优的样本效率;在离线设置下,ADMPO-OFF不仅在性能上优于近期最先进的离线方法,且仅需单一ADM即可实现对模型不确定性的更优量化。