奖励错误归约 Reward Misspecification

奖励错误归约 (Reward Misspecification) 是指在强化学习 (RL) 中,由于奖励函数不完全符合智能体真正目标而导致的问题。这种现象在实际应用中很常见,因为设计一个完美符合所有期望的奖励函数往往非常困难。奖励错误归约可能导致智能体学习到的行为与我们期望的目标不一致,这种现象有时也被称为「奖励黑客」(Reward Hacking),即智能体利用奖励函数的漏洞来获得更高的奖励分数,但实际行为可能与预期目标相悖。

在 2022 年,由 Alexander Pan 、 Kush Bhatia 和 Jacob Steinhardt 等人发表的论文「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」深入探讨了 Reward Misspecification 的影响。他们构建了四个具有错误指定奖励的强化学习环境,并研究了智能体的能力(如模型容量、动作空间分辨率、观测空间噪声和训练时间)如何影响奖励黑客行为。他们发现,能力更强的智能体更有可能利用奖励错误归约,从而获得更高的代理奖励(proxy reward)和更低的真实奖励(true reward)。此外,他们还发现了 “相变” 现象,即智能体的行为在达到某个能力阈值时会发生质的转变,导致真实奖励急剧下降。为了应对这一挑战,他们提出了一种异常检测任务,用于检测异常策略,并提供了几种基线检测器。