HH-RLHF-Datensatz Zu Menschlichen Präferenzen
Datum
vor einem Monat
Größe
90.35 MB
Veröffentlichungs-URL
Paper-URL
Lizenz
MIT
*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
HH-RLHF ist ein 2022 von Anthropic veröffentlichter Datensatz zu menschlichen Präferenzen, der hauptsächlich aus zwei Teilen besteht.
Zusammensetzung des Datensatzes:
- Daten zur Präferenz des Menschen für vorteilhaft/unschädlich (PM-Daten):
- Die relevanten Papierergebnisse sindTraining eines hilfreichen und harmlosen Assistenten mit Verstärkungslernen durch menschliches Feedback“, dessen Ziel es ist, menschliche Präferenzen zu nutzen, um das Dialogmodell so anzupassen, dass es sowohl „nützlich“ als auch „harmlos“ ist.
- Dieser Datensatz besteht aus gepaarten Antwortvergleichsproben (jeweils mit einer gewählten/abgelehnten Antwort) und deckt Nützlichkeit (aus Basis-, Ablehnungs- und Online-Quellen) und Harmlosigkeit (Basis) ab. Das Datenformat ist einfach und unkompliziert, daher wird eine direkte SFT nicht empfohlen. Es eignet sich für Szenarien wie RLHF/DPO-Training, die Erstellung von Belohnungsmodellen sowie den Vergleich und die Bewertung der Antwortqualität.
- Red Team-Konversationsdaten (Nicht-PM-Daten):
- Die relevanten Papierergebnisse sindRed Teaming-Sprachmodelle zur Schadensminderung: Methoden, Skalierungsverhalten und gewonnene Erkenntnisse“, dessen Ziel es ist, die Arten von Angriffen und Erscheinungsformen von Schäden zu untersuchen und dazu beizutragen, die Schädlichkeit von Modellen zu verringern.
- Dieser Datensatz enthält vollständige Red-Team-Gesprächsprotokolle und Metadaten, darunter Transkript, min_harmlessness_score_transcript, Modelltyp, Bewertung, Aufgabenbeschreibung, Tags und mehr. Die Daten ähneln realen Red-Team-Prozessen und sind reichhaltig kommentiert. Sie werden nicht für Bias-Modellierung oder SFT verwendet, eignen sich aber für Szenarien wie Sicherheitsausrichtungsanalysen, Red-Team-Bewertungen, Schadensarteninduktion und Richtlinienverbesserungen.
HH-RLHF.torrent
Seeding 1Herunterladen 0Abgeschlossen 8Gesamtdownloads 32