HelpSteer2-Datensatz Zur Ausrichtung Menschlicher Präferenzen
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY 4.0
Kategorien
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
HelpSteer2 ist ein Open-Source-Datensatz, der 2024 gemeinsam von NVIDIA und Scale AI erstellt wurde. Ziel ist es, ein Belohnungsmodell zu trainieren, das große Sprachmodelle (LLMs) anleiten kann, qualitativ hochwertige Antworten zu generieren, die den menschlichen Vorlieben entsprechen. Die entsprechenden Ergebnisse der Studie sind „HelpSteer2: Open-Source-Datensatz zum Trainieren leistungsstarker Belohnungsmodelle". Es wird basierend auf dem HelpSteer-Datensatz aktualisiert, um sich an die aktuellen leistungsstärkeren LLMs anzupassen. HelpSteer2 enthält etwa zehntausend Antwortpaare, was um eine Größenordnung kleiner ist als vorhandene Präferenzdatensätze, aber es ist sehr effizient beim Trainieren von Belohnungsmodellen.
Der Datensatz wurde gesammelt, indem Eingabeaufforderungen von der ShareGPT-Plattform übernommen und Antworten mithilfe eines leistungsstarken internen Basismodells generiert wurden. Der Annotationsprozess der Antworten erforderte, dass mindestens drei Annotatoren jede Antwort annotierten, um die Annotationsqualität zu verbessern. Statistiken von HelpSteer2 zeigen, dass die Modellantworten im Vergleich zum HelpSteer-Datensatz hinsichtlich Nützlichkeit, Richtigkeit, Kohärenz, Komplexität und Ausführlichkeit besser abschneiden.
Der HelpSteer2-Datensatz ist beim Trainieren von Belohnungsmodellen sehr effektiv. Beispielsweise erreichte das mit HelpSteer2 trainierte Modell Llama 3 70B im Hauptdatensatz von Reward-Bench einen Wert von 92,0% und übertraf damit alle mit Stand vom 12. Juni 2024 aufgeführten öffentlichen und proprietären Modelle. Darüber hinaus schlug das Forschungsteam auch die Modellausrichtungsmethode SteerLM 2.0 vor, die die vom Belohnungsmodell vorhergesagten umfangreichen Multiattributwerte effektiv nutzen kann.