HyperAIHyperAI

HH-RLHF-Datensatz Zu Menschlichen Präferenzen

Datum

vor einem Monat

Größe

90.35 MB

Organisation

Anthropisch

Veröffentlichungs-URL

huggingface.co

Paper-URL

2209.07858

Lizenz

MIT

*Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

HH-RLHF ist ein 2022 von Anthropic veröffentlichter Datensatz zu menschlichen Präferenzen, der hauptsächlich aus zwei Teilen besteht.

Zusammensetzung des Datensatzes:

  • Daten zur Präferenz des Menschen für vorteilhaft/unschädlich (PM-Daten):
    • Die relevanten Papierergebnisse sindTraining eines hilfreichen und harmlosen Assistenten mit Verstärkungslernen durch menschliches Feedback“, dessen Ziel es ist, menschliche Präferenzen zu nutzen, um das Dialogmodell so anzupassen, dass es sowohl „nützlich“ als auch „harmlos“ ist.
    • Dieser Datensatz besteht aus gepaarten Antwortvergleichsproben (jeweils mit einer gewählten/abgelehnten Antwort) und deckt Nützlichkeit (aus Basis-, Ablehnungs- und Online-Quellen) und Harmlosigkeit (Basis) ab. Das Datenformat ist einfach und unkompliziert, daher wird eine direkte SFT nicht empfohlen. Es eignet sich für Szenarien wie RLHF/DPO-Training, die Erstellung von Belohnungsmodellen sowie den Vergleich und die Bewertung der Antwortqualität.
  • Red Team-Konversationsdaten (Nicht-PM-Daten):
    • Die relevanten Papierergebnisse sindRed Teaming-Sprachmodelle zur Schadensminderung: Methoden, Skalierungsverhalten und gewonnene Erkenntnisse“, dessen Ziel es ist, die Arten von Angriffen und Erscheinungsformen von Schäden zu untersuchen und dazu beizutragen, die Schädlichkeit von Modellen zu verringern.
    • Dieser Datensatz enthält vollständige Red-Team-Gesprächsprotokolle und Metadaten, darunter Transkript, min_harmlessness_score_transcript, Modelltyp, Bewertung, Aufgabenbeschreibung, Tags und mehr. Die Daten ähneln realen Red-Team-Prozessen und sind reichhaltig kommentiert. Sie werden nicht für Bias-Modellierung oder SFT verwendet, eignen sich aber für Szenarien wie Sicherheitsausrichtungsanalysen, Red-Team-Bewertungen, Schadensarteninduktion und Richtlinienverbesserungen.

HH-RLHF.torrent
Seeding 1Herunterladen 0Abgeschlossen 8Gesamtdownloads 32
  • HH-RLHF/
    • README.md
      1.98 KB
    • README.txt
      3.96 KB
      • data/
        • HH-RLHF.zip
          90.35 MB