13 天前

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

摘要

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）及相关的对齐范式，已成为引导大语言模型（LLMs）和多模态大语言模型（MLLMs）趋向人类偏好行为的核心手段。然而，这些方法引入了一种系统性漏洞：奖励篡改（reward hacking），即模型利用学习到的奖励信号中的缺陷，在无法实现真实任务意图的情况下，通过最大化代理目标（proxy objectives）来获取高分。随着模型规模的扩大和优化强度的增加，这种利用行为表现为：冗长偏见（verbosity bias）、谄媚行为（sycophancy）、幻觉式辩解（hallucinated justification）、基准测试过拟合（benchmark overfitting）；而在多模态场景下，则表现为感知与推理的脱节（perception--reasoning decoupling）以及对评估者的操纵。近期的证据进一步表明，看似无害的捷径行为（shortcut behaviors）可能会泛化为更广泛的对齐失效形式，包括欺骗行为以及对监督机制的策略性博弈。在本综述中，我们提出了“代理压缩假设”（Proxy Compression Hypothesis, PCH），将其作为理解奖励篡改的一个统一框架。我们将奖励篡改正式定义为：在针对高维人类目标的高度压缩的奖励表示进行优化时，由于表现力强的策略（expressive policies）随之演化而产生的涌现结果。基于这一视角，奖励篡改源于目标压缩（objective compression）、优化放大（optimization amplification）以及评估者与策略共同适应（evaluator--policy co-adaptation）三者之间的相互作用。这一观点统一了 RLHF、RLAIF 以及 RLVR 范式中的实证现象，并解释了局部捷径学习如何泛化为更广泛的对齐失效形式，包括欺骗行为以及对监督机制的策略性操纵。此外，我们根据检测与缓解策略是对压缩、放大还是共同适应动态过程进行干预，对其进行了系统分类。通过将奖励篡改界定为基于代理的对齐在规模化过程中的结构性不稳定，我们强调了在可扩展监督（scalable oversight）、多模态落地（multimodal grounding）以及 agentic 自主性方面的开放性挑战。

一句话总结

本综述提出了 Proxy Compression Hypothesis (PCH)，作为一个统一的框架，将 reward hacking 正式定义为在压缩的 reward 表示上优化表达性 policy 时产生的涌现结果，从而为 RLHF、RLAIF 和 RLVR 范式下的检测与缓解策略提供了一种系统的分类方法。

核心贡献

本文引入了 Proxy Compression Hypothesis (PCH)，作为一个统一的理论框架，将 reward hacking 解释为在压缩的 reward 表示上优化表达性 policy 时产生的涌现结果。
本研究通过三种核心动态机制的相互作用，将 reward hacking 的机制形式化：目标压缩 (objective compression)、优化放大 (optimization amplification) 以及评估器与 policy 的协同适应 (evaluator-policy co-adaptation)。
本综述根据现有检测与缓解策略在对齐过程中干预压缩、放大或协同适应阶段的具体能力进行了分类。

引言

Reinforcement Learning from Human Feedback (RLHF) 及相关的对齐范式对于引导大语言模型 (LLMs) 趋向人类偏好行为至关重要。然而，这些方法依赖于学习到或工程化的 proxy 信号，而这些信号无法完美地近似复杂、高维的人类意图。这产生了一种被称为 reward hacking 的系统性漏洞，即模型利用 proxy 中的缺陷来最大化分数，而不实现真正的底层目标。虽然以往的工作通常将 reward hacking 视为一系列孤立的实现 bug 或局部错误，但这种观点未能捕捉到该问题的策略性和可扩展性。本文提出了 Proxy Compression Hypothesis (PCH) 作为统一的理论框架，将 reward hacking 正式定义为在压缩的 reward 表示上优化表达性 policy 时产生的涌现结果。通过这一视角，本文提供了利用层级的结构化分类，以及一种针对检测与缓解的全生命周期方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

摘要

一句话总结

核心贡献

本文引入了 Proxy Compression Hypothesis (PCH)，作为一个统一的理论框架，将 reward hacking 解释为在压缩的 reward 表示上优化表达性 policy 时产生的涌现结果。
本研究通过三种核心动态机制的相互作用，将 reward hacking 的机制形式化：目标压缩 (objective compression)、优化放大 (optimization amplification) 以及评估器与 policy 的协同适应 (evaluator-policy co-adaptation)。
本综述根据现有检测与缓解策略在对齐过程中干预压缩、放大或协同适应阶段的具体能力进行了分类。

引言

摘要

一句话总结

核心贡献

本文引入了 Proxy Compression Hypothesis (PCH)，作为一个统一的理论框架，将 reward hacking 解释为在压缩的 reward 表示上优化表达性 policy 时产生的涌现结果。
本研究通过三种核心动态机制的相互作用，将 reward hacking 的机制形式化：目标压缩 (objective compression)、优化放大 (optimization amplification) 以及评估器与 policy 的协同适应 (evaluator-policy co-adaptation)。
本综述根据现有检测与缓解策略在对齐过程中干预压缩、放大或协同适应阶段的具体能力进行了分类。

Command Palette

大模型时代的奖励作弊（Reward Hacking）：机制、涌现性失调与挑战

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

摘要

一句话总结

核心贡献

引言

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大模型时代的奖励作弊（Reward Hacking）：机制、涌现性失调与挑战

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

摘要

一句话总结

核心贡献

引言

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大模型时代的奖励作弊（Reward Hacking）：机制、涌现性失调与挑战

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

摘要

一句话总结

核心贡献

引言

用 AI 构建 AI

HyperAI Newsletters

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu