HyperAIHyperAI

Command Palette

Search for a command to run...

Semantisch bewusste Belohnungen für offene R1-Trainingsmethoden in der freien Generierung

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

Zusammenfassung

Die Bewertung offener, langer Textgenerierungen ist herausfordernd, da es schwierig ist, klar zu definieren, was gute von schlechten Ausgaben trennt. Bestehende Methoden übersehen oft wichtige Aspekte wie Kohärenz, Stil oder Relevanz oder sind durch Vortrainingsdaten verzerrt, wodurch die Bewertung offener, langer Textgenerierungen ein untererforschtes Problem bleibt. Um diese Lücke zu schließen, schlagen wir PrefBERT vor, ein Bewertungsmodell für die Beurteilung offener, langer Textgenerierungen in GRPO (Generative Response Policy Optimization) und zur Steuerung ihres Trainings mit unterschiedlichen Belohnungen für gute und schlechte Ausgaben. PrefBERT wurde auf zwei Antwortbewertungsdatensätzen trainiert, die verschiedene lange Textstile und Likert-skalierte Qualitätsbewertungen umfassen. Es unterstützt GRPO effektiver als traditionelle Metriken wie ROUGE-L und BERTScore durch bessere semantische Belohnungsfeedback. Durch umfassende Evaluierungen, einschließlich der Verwendung eines LLM als Richter (LLM-as-a-judge), menschlicher Bewertungen und qualitativer Analysen, zeigen wir, dass PrefBERT bei multisätzigen und abschnittslangen Antworten zuverlässig bleibt und gut mit den verifizierbaren Belohnungen übereinstimmt, die GRPO benötigt. Menschliche Evaluierungen bestätigen zudem, dass das Training von Policy-Modellen mit PrefBERT als Belohnungssignal zu Antworten führt, die besser den menschlichen Präferenzen entsprechen als solche, die mit traditionellen Metriken trainiert wurden. Unser Code ist unter https://github.com/zli12321/long_form_rl verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp