vor 18 Tagen

Semantisch bewusste Belohnungen für offene R1-Trainingsmethoden in der freien Generierung

Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

Abstract

Die Bewertung offener, langer Textgenerierungen ist herausfordernd, da es schwierig ist, klar zu definieren, was gute von schlechten Ausgaben trennt. Bestehende Methoden übersehen oft wichtige Aspekte wie Kohärenz, Stil oder Relevanz oder sind durch Vortrainingsdaten verzerrt, wodurch die Bewertung offener, langer Textgenerierungen ein untererforschtes Problem bleibt. Um diese Lücke zu schließen, schlagen wir PrefBERT vor, ein Bewertungsmodell für die Beurteilung offener, langer Textgenerierungen in GRPO (Generative Response Policy Optimization) und zur Steuerung ihres Trainings mit unterschiedlichen Belohnungen für gute und schlechte Ausgaben. PrefBERT wurde auf zwei Antwortbewertungsdatensätzen trainiert, die verschiedene lange Textstile und Likert-skalierte Qualitätsbewertungen umfassen. Es unterstützt GRPO effektiver als traditionelle Metriken wie ROUGE-L und BERTScore durch bessere semantische Belohnungsfeedback. Durch umfassende Evaluierungen, einschließlich der Verwendung eines LLM als Richter (LLM-as-a-judge), menschlicher Bewertungen und qualitativer Analysen, zeigen wir, dass PrefBERT bei multisätzigen und abschnittslangen Antworten zuverlässig bleibt und gut mit den verifizierbaren Belohnungen übereinstimmt, die GRPO benötigt. Menschliche Evaluierungen bestätigen zudem, dass das Training von Policy-Modellen mit PrefBERT als Belohnungssignal zu Antworten führt, die besser den menschlichen Präferenzen entsprechen als solche, die mit traditionellen Metriken trainiert wurden. Unser Code ist unter https://github.com/zli12321/long_form_rl verfügbar.