HyperAIHyperAI

Command Palette

Search for a command to run...

Vorab trainierte Policys als allgemeine Belohnungsmodelle

Zusammenfassung

Wir bieten eine neue Perspektive auf die Belohnungsmodellierung, indem wir sie als Richtlinien-Diskriminierer formulieren, der den Unterschied zwischen zwei Richtlinien quantifiziert, um ein Belohnungssignal zu erzeugen, das die Trainingsrichtlinie in Richtung einer Zielrichtlinie mit gewünschten Verhaltensweisen leitet. Auf dieser konzeptuellen Erkenntnis basierend schlagen wir eine skalierbare Vortrainingsmethode vor, die als Policy Discriminative Learning (POLAR) bezeichnet wird und ein Belohnungsmodell (RM) trainiert, um identische Richtlinien zu erkennen und verschiedene zu diskriminieren. Im Gegensatz zu traditionellen Belohnungsmodellierungsmethoden, die sich auf absolute Präferenzen stützen, erfasst POLAR den relativen Unterschied zwischen einer Richtlinie und einer beliebigen Zielrichtlinie. Dies ist ein skalierbares, hochstufiges Optimierungsziel, das sich für die Modellierung generischer Rangfolgebeziehungen eignet. Unter Nutzung des POLAR-Vortrainingsparadigmas präsentieren wir eine Reihe von RMs mit Parameterskalen von 1,8 Milliarden bis 7 Milliarden. Empirische Ergebnisse zeigen, dass POLAR erheblich über traditionelle nicht-vortrainierte Methoden hinausreicht und die Leistung von RMs signifikant verbessert. Zum Beispiel konnte POLAR-7B die Präferenzgenauigkeit bei STEM-Aufgaben von 54,8 % auf 81,0 % und bei kreativen Schreibaufgaben von 57,9 % auf 85,5 % erhöhen im Vergleich zu den besten bisher bekannten Baselines (SOTA). POLAR zeigt auch robuste Generalisierungsfähigkeiten in der Reinforcement Learning from Human Feedback (RLHF) durch Verstärkendes Feintuning (RFT), wobei es verlässliche Belohnungssignale liefert und die Richtlinienleistung deutlich verbessert – LLaMa3.1-8B wurde von einem Durchschnitt von 47,36 % auf 56,33 % und Qwen2.5-32B von 64,49 % auf 70,47 % bei 20 Benchmarks verbessert. Skalierungsexperimente offenbaren zudem einen klaren Potenzgesetz-Beziehung zwischen Berechnung und Leistung, unterstützt durch lineare Korrelationskoeffizienten nahe an 0,99. Die beeindruckende Leistung, starke Generalisierungsfähigkeiten und Skalierungseigenschaften deuten darauf hin, dass POLAR eine vielversprechende Richtung zur Entwicklung allgemeiner und starker Belohnungsmodelle darstellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp