Ein Token, um LLM als Richter zu täuschen

Generative Reward-Modelle (auch bekannt als LLMs-as-Judges), die große Sprachmodelle (LLMs) verwenden, um die Qualität von Antworten zu bewerten, werden zunehmend in der Verstärkungslernen-Methode mit verifizierbaren Belohnungen (RLVR) eingesetzt. Sie werden oft gegenüber steifen regelbasierten Metriken bevorzugt, insbesondere für komplexe Aufgaben, die freie Ausgabeformen erfordern. In diesem Paradigma wird ein LLM in der Regel angewiesen, eine Kandidatenantwort mit einem Ground-Truth-Referenz zu vergleichen und eine binäre Belohnung zuzuweisen, die Richtigkeit anzeigt. Trotz der scheinbaren Einfachheit dieser Vergleichsaufgabe stellen wir fest, dass generative Reward-Modelle überraschende Anfälligkeiten für oberflächliche Manipulationen aufweisen: Nicht-Wort-Symbole (z.B., ":" oder ".") oder Argumentationsanfänge wie "Denkprozess:" und "Lassen Sie uns dieses Problem Schritt für Schritt lösen" können häufig zu falsch positiven Belohnungen führen. Wir zeigen, dass diese Schwäche weit verbreitet ist und sich über verschiedene LLMs, Datensätze und Promptformate erstreckt. Dies stellt eine ernste Bedrohung für grundlegende algorithmische Paradigmen dar, die auf generativen Reward-Modellen basieren, wie z.B. Rejection Sampling, Preference Optimization und RLVR. Um dieses Problem zu mindern, führen wir eine einfache aber effektive Datenverstärkungsstrategie ein und trainieren ein neues generatives Reward-Modell mit erheblich verbessertem Robustheitsgrad. Unsere Ergebnisse unterstreichen das dringende Bedürfnis nach zuverlässigeren LLM-basierten Bewertungsmethoden. Wir veröffentlichen unser robustes, allgemeines Reward-Modell sowie seine synthetischen Trainingsdaten unter https://huggingface.co/sarosavo/Master-RM und https://huggingface.co/datasets/sarosavo/Master-RM.