vor 5 Tagen

Vorab trainierte Policys als allgemeine Belohnungsmodelle

Shihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen

Details der Forschungsarbeit anzeigen View Code

Vorab trainierte Policys als allgemeine Belohnungsmodelle

Abstract

Wir bieten eine neue Perspektive auf die Belohnungsmodellierung, indem wir sie als Richtlinien-Diskriminierer formulieren, der den Unterschied zwischen zwei Richtlinien quantifiziert, um ein Belohnungssignal zu erzeugen, das die Trainingsrichtlinie in Richtung einer Zielrichtlinie mit gewünschten Verhaltensweisen leitet. Auf dieser konzeptuellen Erkenntnis basierend schlagen wir eine skalierbare Vortrainingsmethode vor, die als Policy Discriminative Learning (POLAR) bezeichnet wird und ein Belohnungsmodell (RM) trainiert, um identische Richtlinien zu erkennen und verschiedene zu diskriminieren. Im Gegensatz zu traditionellen Belohnungsmodellierungsmethoden, die sich auf absolute Präferenzen stützen, erfasst POLAR den relativen Unterschied zwischen einer Richtlinie und einer beliebigen Zielrichtlinie. Dies ist ein skalierbares, hochstufiges Optimierungsziel, das sich für die Modellierung generischer Rangfolgebeziehungen eignet. Unter Nutzung des POLAR-Vortrainingsparadigmas präsentieren wir eine Reihe von RMs mit Parameterskalen von 1,8 Milliarden bis 7 Milliarden. Empirische Ergebnisse zeigen, dass POLAR erheblich über traditionelle nicht-vortrainierte Methoden hinausreicht und die Leistung von RMs signifikant verbessert. Zum Beispiel konnte POLAR-7B die Präferenzgenauigkeit bei STEM-Aufgaben von 54,8 % auf 81,0 % und bei kreativen Schreibaufgaben von 57,9 % auf 85,5 % erhöhen im Vergleich zu den besten bisher bekannten Baselines (SOTA). POLAR zeigt auch robuste Generalisierungsfähigkeiten in der Reinforcement Learning from Human Feedback (RLHF) durch Verstärkendes Feintuning (RFT), wobei es verlässliche Belohnungssignale liefert und die Richtlinienleistung deutlich verbessert – LLaMa3.1-8B wurde von einem Durchschnitt von 47,36 % auf 56,33 % und Qwen2.5-32B von 64,49 % auf 70,47 % bei 20 Benchmarks verbessert. Skalierungsexperimente offenbaren zudem einen klaren Potenzgesetz-Beziehung zwischen Berechnung und Leistung, unterstützt durch lineare Korrelationskoeffizienten nahe an 0,99. Die beeindruckende Leistung, starke Generalisierungsfähigkeiten und Skalierungseigenschaften deuten darauf hin, dass POLAR eine vielversprechende Richtung zur Entwicklung allgemeiner und starker Belohnungsmodelle darstellt.