HyperAIHyperAI

Command Palette

Search for a command to run...

Das Training eines hilfreichen und harmlosen Assistenten mit dem Verstärkungslernen aus menschlicher Rückmeldung

Yuntao Bai Andy Jones Kamal Ndousse Amanda Askell Anna Chen Nova DasSarma et al

Zusammenfassung

Wir setzen Präferenzmodellierung und Reinforcement Learning aus menschlicher Rückmeldung (RLHF) ein, um Sprachmodelle so zu feintunen, dass sie hilfreiche und schadensfreie Assistenten darstellen. Wir stellen fest, dass diese Ausrichtungstraining-Methode die Leistung auf nahezu allen NLP-Bewertungen verbessert und vollständig kompatibel mit der Schulung spezialisierter Fähigkeiten wie Python-Programmierung und Zusammenfassung ist. Wir untersuchen einen iterativen Online-Trainingsansatz, bei dem Präferenzmodelle und RL-Politiken wöchentlich mit frischen Daten aus menschlicher Rückmeldung aktualisiert werden, wodurch unsere Datensätze und Modelle effizient verbessert werden. Schließlich untersuchen wir die Robustheit des RLHF-Trainings und identifizieren eine annähernd lineare Beziehung zwischen dem RL-Belohnungswert und der Quadratwurzel der KL-Divergenz zwischen der Politik und ihrer Initialisierung. Neben unseren Hauptergebnissen führen wir ergänzende Analysen zur Kalibrierung, konkurrierenden Zielen sowie zur Anwendung von OOD-Detektion durch, vergleichen unsere Modelle mit menschlichen Autoren und präsentieren Beispiele aus unseren Modellen, die mit Prompten generiert wurden, die in jüngeren Arbeiten zur gleichen Thematik auftauchen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Das Training eines hilfreichen und harmlosen Assistenten mit dem Verstärkungslernen aus menschlicher Rückmeldung | Paper | HyperAI