Spezifikation Self-Correction: Verminderung von In-Context Reward Hacking Durch Testzeit-Verfeinerung

Sprachmodelle (LMs) sind anfällig für „In-Context Reward Hacking“, bei dem sie Schwachstellen in beschädigten oder fehlerhaften schriftlichen Spezifikationen oder Bewertungskriterien ausnutzen, um hohe Bewertungen zu erzielen, ohne den eigentlichen Wunsch des Nutzers zu erfüllen. Wir stellen Specification Self-Correction (SSC) vor, einen neuartigen, inferenzzeitbasierten Rahmen, der es einem Sprachmodell ermöglicht, Fehler in seiner eigenen Leitlinienspezifikation zu erkennen und zu korrigieren. SSC verwendet einen mehrstufigen Inferenzprozess, bei dem das Modell zunächst eine Antwort auf Basis einer möglicherweise beschädigten Spezifikation generiert, diese Antwort kritisch bewertet und anschließend die Spezifikation selbst überarbeitet, um die ausnutzbare Lücke zu schließen. Anschließend wird eine robustere Antwort mit dieser selbstkorrigierten Spezifikation erzeugt. In Experimenten, die kreative Schreib- und agentebezogene Codeaufgaben mit verschiedenen LMs abdecken, zeigen wir, dass Modelle ursprünglich in 50–70 % der Fälle beschädigte Spezifikationen ausnutzen, während der SSC-Prozess diese Anfälligkeit um über 90 % reduziert. Dieser dynamische Reparaturprozess erfolgt während der Inferenz, erfordert keine Gewichtsmodifikationen und führt zu besser abgestimmtem Modellverhalten. Code unter https://github.com/vicgalle/specification-self-correction.