17 天前

IQ-Learn:用于模仿学习的逆向软Q学习

Divyansh Garg, Shuvam Chakraborty, Chris Cundy, Jiaming Song, Matthieu Geist, Stefano Ermon
IQ-Learn:用于模仿学习的逆向软Q学习
摘要

在许多顺序决策问题中(如机器人控制、游戏博弈、序列预测),通常可获取包含任务相关信息的人类或专家数据。然而,在高维且动态复杂的环境中,仅依靠少量专家数据进行模仿学习(Imitation Learning, IL)仍面临挑战。行为克隆(Behavioral Cloning)是一种广泛应用的简单方法,因其实现简便且收敛稳定而受到青睐,但它无法利用环境动态信息。许多现有利用动态信息的方法在实际训练中表现困难,原因在于其依赖于奖励函数与策略近似器之间的对抗性优化过程,或存在偏差大、方差高的梯度估计问题。本文提出一种面向动态信息的模仿学习方法,通过学习单一的Q函数来隐式建模奖励函数与策略,从而避免对抗性训练。在标准基准测试中,该方法所隐式学习到的奖励函数与真实奖励之间表现出高度正相关性,表明该方法同样适用于逆强化学习(Inverse Reinforcement Learning, IRL)。所提出的算法——逆软Q学习(Inverse soft-Q learning, IQ-Learn),在离线与在线模仿学习设置下均取得了当前最优性能,显著优于现有方法,无论是在所需环境交互次数方面,还是在高维空间中的可扩展性方面,通常提升超过3倍。