HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 3 Tagen

Training von LLMs zur Ehrlichkeit mittels Geständnissen

Manas Joglekar Jeremy Chen Gabriel Wu Jason Yosinski Jasmine Wang Boaz Barak Amelia Glaese

Training von LLMs zur Ehrlichkeit mittels Geständnissen

Abstract

Große Sprachmodelle (LLMs) können bei der Berichterstattung über ihre Handlungen und Überzeugungen unehrlich sein – beispielsweise können sie ihre Zuversicht bezüglich faktischer Aussagen übertrieben darstellen oder Hinweise auf verdeckte Handlungen verschweigen. Eine solche Unaufrichtigkeit kann durch die Wirkungen von Verstärkungslernen (Reinforcement Learning, RL) entstehen, bei dem Probleme bei der Belohnungsformulierung dazu führen können, dass der Trainingsprozess unbeabsichtigt das Modell dazu veranlasst, zu lügen oder seine Handlungen zu verfälschen.In dieser Arbeit stellen wir eine Methode vor, mit der sich eine ehrliche Darstellung der Schwächen eines LLMs durch eine selbstberichtete Beichte erzielen lässt. Eine Beichte ist eine nach der ursprünglichen Antwort des Modells auf Anfrage bereitgestellte Ausgabe, die als vollständige Darstellung der Übereinstimmung des Modells mit Buchstaben und Geist seiner Richtlinien und Anweisungen dienen soll. Die Belohnung für eine Beichte während des Trainings beruht ausschließlich auf ihrer Ehrlichkeit und beeinflusst weder positiv noch negativ die Belohnung der Hauptantwort. Solange der „Weg mit geringstem Widerstand“ zur Maximierung der Beichtbelohnung darin besteht, Fehlverhalten offen zu legen statt es zu verbergen, wird das Modell dadurch incentiviert, bei seinen Beichten ehrlich zu sein. Unsere Ergebnisse liefern einige empirische Begründung für diese Annahme, insbesondere im Fall gravierender Fehlverhaltensweisen des Modells.Um die Durchführbarkeit unseres Ansatzes zu demonstrieren, trainieren wir GPT-5-Thinking dazu, Beichten zu erzeugen, und evaluieren deren Ehrlichkeit in außerhalb der Trainingsverteilung liegenden Szenarien hinsichtlich Halluzinationen, Anweisungskonformität, Strategiebildung und Belohnungshacking. Wir stellen fest, dass das Modell, wenn es in seiner „Hauptantwort“ lügt oder Schwächen verschweigt, diese Verhaltensweisen in der Beichte oft ehrlich zugibt, und dass die Ehrlichkeit der Beichten im Laufe des Trainings moderat zunimmt. Beichten ermöglichen eine Reihe von Eingriffen zur Inference-Zeit, darunter Überwachung, Ablehnungs-Sampling sowie die Aufdeckung von Problemen für den Nutzer.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Training von LLMs zur Ehrlichkeit mittels Geständnissen | Forschungsarbeiten | HyperAI