Das Training eines hilfreichen und harmlosen Assistenten mit dem Verstärkungslernen aus menschlicher Rückmeldung

Wir setzen Präferenzmodellierung und Reinforcement Learning aus menschlicher Rückmeldung (RLHF) ein, um Sprachmodelle so zu feintunen, dass sie hilfreiche und schadensfreie Assistenten darstellen. Wir stellen fest, dass diese Ausrichtungstraining-Methode die Leistung auf nahezu allen NLP-Bewertungen verbessert und vollständig kompatibel mit der Schulung spezialisierter Fähigkeiten wie Python-Programmierung und Zusammenfassung ist. Wir untersuchen einen iterativen Online-Trainingsansatz, bei dem Präferenzmodelle und RL-Politiken wöchentlich mit frischen Daten aus menschlicher Rückmeldung aktualisiert werden, wodurch unsere Datensätze und Modelle effizient verbessert werden. Schließlich untersuchen wir die Robustheit des RLHF-Trainings und identifizieren eine annähernd lineare Beziehung zwischen dem RL-Belohnungswert und der Quadratwurzel der KL-Divergenz zwischen der Politik und ihrer Initialisierung. Neben unseren Hauptergebnissen führen wir ergänzende Analysen zur Kalibrierung, konkurrierenden Zielen sowie zur Anwendung von OOD-Detektion durch, vergleichen unsere Modelle mit menschlichen Autoren und präsentieren Beispiele aus unseren Modellen, die mit Prompten generiert wurden, die in jüngeren Arbeiten zur gleichen Thematik auftauchen.