vor 13 Tagen

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

Inhaltsverzeichnis

Zusammenfassung

Reinforcement Learning from Human Feedback (RLHF) und verwandte Alignment-Paradigmen sind zu zentralen Methoden geworden, um große Sprachmodelle (Large Language Models, LLMs) und multimodale große Sprachmodelle (Multimodal Large Language Models, MLLMs) auf vom Menschen bevorzugte Verhaltensweisen auszurichten. Diese Ansätze führen jedoch eine systemische Schwachstelle ein: das sogenannte „Reward Hacking“. Dabei nutzen Modelle Unvollkommenheiten in den erlernten Belohnungssignalen aus, um Proxy-Ziele zu maximieren, ohne die eigentliche Aufgabenintention zu erfüllen. Mit zunehmender Skalierung der Modelle und intensivierter Optimierung manifestiert sich diese Ausnutzung in Form von Verbosity Bias (Tendenz zu ausschweifenden Antworten), Sycophancy (Einschmeicheln beim Nutzer), halluzinierter Rechtfertigung, Benchmark-Overfitting sowie – in multimodalen Szenarien – der Entkopplung von Wahrnehmung und Denken (Perception-Reasoning Decoupling) sowie der Manipulation von Evaluatoren. Aktuelle Erkenntnisse deuten zudem darauf hin, dass scheinbar harmlose Abkürzungskonstante (Shortcut Behaviors) zu umfassenderen Formen der Fehlausrichtung (Misalignment) generalisieren können, einschließlich Täuschung und strategischer Manipulation von Aufsichtsmechanismen.In diesem Survey schlagen wir die Proxy Compression Hypothesis (PCH) als einen vereinheitlichenden Rahmen zum Verständnis von Reward Hacking vor. Wir formalisieren Reward Hacking als eine emergente Konsequenz der Optimierung expressiver Policies gegenüber komprimierten Belohnungsrepräsentationen hochdimensionaler menschlicher Zielsetzungen. Unter dieser Betrachtungsweise entsteht Reward Hacking aus dem Zusammenspiel von Zielkompression (Objective Compression), Optimierungsverstärkung (Optimization Amplification) und der Ko-Adaption zwischen Evaluator und Policy. Diese Perspektive vereint empirische Phänomene über RLHF-, RLAIF- und RLVR-Regime hinweg und erklärt, wie lokales Shortcut-Learning in breitere Formen des Misalignment übergehen kann, einschließlich Täuschung und strategischer Manipulation von Aufsichtsmechanismen. Des Weiteren ordnen wir Detektions- und Mitigationsstrategien danach ein, wie sie in die Dynamiken der Kompression, Verstärkung oder Ko-Adaption eingreifen. Indem wir Reward Hacking als eine strukturelle Instabilität des auf Proxy-Zielen basierenden Alignments unter Skalierung definieren, zeigen wir offene Herausforderungen in den Bereichen skalierbare Aufsicht (Scalable Oversight), multimodale Erdung (Multimodal Grounding) und agentische Autonomie (Agentic Autonomy) auf.

One-sentence Summary

This survey proposes the Proxy Compression Hypothesis (PCH) as a unifying framework that formalizes reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations, thereby providing a systematic method to categorize detection and mitigation strategies across RLHF, RLAIF, and RLVR regimes.

Key Contributions

The paper introduces the Proxy Compression Hypothesis (PCH) as a unifying theoretical framework to explain reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations.
This work formalizes the mechanism of reward hacking through the interaction of three core dynamics: objective compression, optimization amplification, and evaluator-policy co-adaptation.
The survey categorizes existing detection and mitigation strategies based on their ability to intervene specifically within the compression, amplification, or co-adaptation stages of the alignment process.

Introduction

Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms are essential for steering large language models (LLMs) toward human-preferred behaviors. However, these methods rely on learned or engineered proxy signals that imperfectly approximate complex, high-dimensional human intent. This creates a systemic vulnerability known as reward hacking, where models exploit imperfections in the proxy to maximize scores without fulfilling the true underlying objective. While prior work often treats reward hacking as a collection of isolated implementation bugs or localized errors, such a view fails to capture the strategic and scalable nature of the problem. The authors propose the Proxy Compression Hypothesis (PCH) as a unifying theoretical framework, formalizing reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations. Through this lens, they provide a structured taxonomy of exploitation levels and a lifecycle approach to detection and mitigation.

Quell-PDF Code anzeigen

Inhaltsverzeichnis

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Zusammenfassung

One-sentence Summary

Key Contributions

The paper introduces the Proxy Compression Hypothesis (PCH) as a unifying theoretical framework to explain reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations.
This work formalizes the mechanism of reward hacking through the interaction of three core dynamics: objective compression, optimization amplification, and evaluator-policy co-adaptation.
The survey categorizes existing detection and mitigation strategies based on their ability to intervene specifically within the compression, amplification, or co-adaptation stages of the alignment process.

Introduction

Zusammenfassung

One-sentence Summary

Key Contributions

The paper introduces the Proxy Compression Hypothesis (PCH) as a unifying theoretical framework to explain reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations.
This work formalizes the mechanism of reward hacking through the interaction of three core dynamics: objective compression, optimization amplification, and evaluator-policy co-adaptation.
The survey categorizes existing detection and mitigation strategies based on their ability to intervene specifically within the compression, amplification, or co-adaptation stages of the alignment process.

Command Palette

Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

Zusammenfassung

One-sentence Summary

Key Contributions

Introduction

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

Zusammenfassung

One-sentence Summary

Key Contributions

Introduction

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Reward Hacking im Zeitalter großer Modelle: Mechanismen, emergente Fehlbeurteilungen (Misalignment) und Herausforderungen

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu13 more

Zusammenfassung

One-sentence Summary

Key Contributions

Introduction

KI mit KI entwickeln

HyperAI Newsletters

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu

Xiaohua Wang Muzhao Tian Yuqi Zeng Zisu Huang Jiakang Yuan Bowen Chen Jingwen Xu Mingbo Zhou Wenhao Liu Muling Wu