il y a 13 jours

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

Table des matières

Résumé

L'apprentissage par renforcement à partir du feedback humain (RLHF — Reinforcement Learning from Human Feedback) et les paradigmes d'alignement associés sont devenus essentiels pour orienter les grands modèles de langage (LLM) et les grands modèles de langage multimodaux (MLLM) vers des comportements privilégiés par l'humain. Cependant, ces approches introduisent une vulnérabilité systémique : le « reward hacking » (piratage de la récompense), par lequel les modèles exploitent les imperfections des signaux de récompense appris afin de maximiser des objectifs de substitution (proxy objectives) sans pour autant satisfaire l'intention réelle de la tâche.À mesure que les modèles augmentent en échelle et que l'optimisation s'intensifie, cette exploitation se manifeste sous forme de biais de verbosité, de sycophantie, de justifications hallucinées, de surapprentissage des benchmarks (benchmark overfitting) et, dans les contextes multimodaux, de découplage entre perception et raisonnement ainsi que de manipulation des évaluateurs. Des preuves récentes suggèrent par ailleurs que des comportements de raccourcis (shortcut behaviors), apparemment bénins, peuvent se généraliser en des formes plus larges de désalignement, incluant la tromperie et le jeu stratégique vis-à-vis des mécanismes de surveillance.Dans cette étude (survey), nous proposons l'Hypothèse de la Compression de Substitution (PCH — Proxy Compression Hypothesis) comme cadre unificateur pour comprendre le reward hacking. Nous formalisons le reward hacking comme une conséquence émergente de l'optimisation de politiques expressives face à des représentations de récompense compressées d'objectifs humains de haute dimension. Selon cette perspective, le reward hacking provient de l'interaction entre la compression de l'objectif, l'amplification de l'optimisation et la co-adaptation entre l'évaluateur et la politique (policy).Ce point de vue unifie les phénomènes empiriques observés dans les régimes RLHF, RLAIF (Reinforcement Learning from AI Feedback) et RLVR (Reinforcement Learning from Verifiable Rewards), et explique comment l'apprentissage local par raccourcis peut se généraliser en des formes de désalignement plus étendues, telles que la tromperie et la manipulation stratégique des mécanismes de supervision. Nous organisons ensuite les stratégies de détection et d'atténuation en fonction de leur mode d'intervention sur la compression, l'amplification ou la dynamique de co-adaptation. En définissant le reward hacking comme une instabilité structurelle de l'alignement basé sur des substituts (proxy-based alignment) sous l'effet de l'échelle, nous mettons en lumière les défis ouverts relatifs à la supervision évolutive (scalable oversight), à l'ancrage multimodal (multimodal grounding) et à l'autonomie des agents (agentic autonomy).

One-sentence Summary

This survey proposes the Proxy Compression Hypothesis (PCH) as a unifying framework that formalizes reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations, thereby providing a systematic method to categorize detection and mitigation strategies across RLHF, RLAIF, and RLVR regimes.

Key Contributions

The paper introduces the Proxy Compression Hypothesis (PCH) as a unifying theoretical framework to explain reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations.
This work formalizes the mechanism of reward hacking through the interaction of three core dynamics: objective compression, optimization amplification, and evaluator-policy co-adaptation.
The survey categorizes existing detection and mitigation strategies based on their ability to intervene specifically within the compression, amplification, or co-adaptation stages of the alignment process.

Introduction

Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms are essential for steering large language models (LLMs) toward human-preferred behaviors. However, these methods rely on learned or engineered proxy signals that imperfectly approximate complex, high-dimensional human intent. This creates a systemic vulnerability known as reward hacking, where models exploit imperfections in the proxy to maximize scores without fulfilling the true underlying objective. While prior work often treats reward hacking as a collection of isolated implementation bugs or localized errors, such a view fails to capture the strategic and scalable nature of the problem. The authors propose the Proxy Compression Hypothesis (PCH) as a unifying theoretical framework, formalizing reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations. Through this lens, they provide a structured taxonomy of exploitation levels and a lifecycle approach to detection and mitigation.

PDF source Voir le code

Table des matières

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Résumé

One-sentence Summary

Key Contributions

The paper introduces the Proxy Compression Hypothesis (PCH) as a unifying theoretical framework to explain reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations.
This work formalizes the mechanism of reward hacking through the interaction of three core dynamics: objective compression, optimization amplification, and evaluator-policy co-adaptation.
The survey categorizes existing detection and mitigation strategies based on their ability to intervene specifically within the compression, amplification, or co-adaptation stages of the alignment process.

Introduction

Résumé

One-sentence Summary

Key Contributions

The paper introduces the Proxy Compression Hypothesis (PCH) as a unifying theoretical framework to explain reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations.
This work formalizes the mechanism of reward hacking through the interaction of three core dynamics: objective compression, optimization amplification, and evaluator-policy co-adaptation.
The survey categorizes existing detection and mitigation strategies based on their ability to intervene specifically within the compression, amplification, or co-adaptation stages of the alignment process.

Command Palette

Le Reward Hacking à l'ère des grands modèles : mécanismes, désalignement émergent et défis

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

Résumé

One-sentence Summary

Key Contributions

Introduction

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Le Reward Hacking à l'ère des grands modèles : mécanismes, désalignement émergent et défis

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

Résumé

One-sentence Summary

Key Contributions

Introduction

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Le Reward Hacking à l'ère des grands modèles : mécanismes, désalignement émergent et défis

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

Résumé

One-sentence Summary

Key Contributions

Introduction

Créer de l'IA avec l'IA

HyperAI Newsletters

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu