HyperAIHyperAI

Command Palette

Search for a command to run...

HH-RLHF-Datensatz Zu Menschlichen Präferenzen

Datum

vor 3 Monaten

Größe

90.35 MB

Organisation

Anthropisch

Paper-URL

2209.07858

Lizenz

MIT

HH-RLHF ist ein 2022 von Anthropic veröffentlichter Datensatz zu menschlichen Präferenzen, der hauptsächlich aus zwei Teilen besteht.

Zusammensetzung des Datensatzes:

  • Daten zur Präferenz des Menschen für vorteilhaft/unschädlich (PM-Daten):
    • Die relevanten Papierergebnisse sindTraining eines hilfreichen und harmlosen Assistenten mit Verstärkungslernen durch menschliches Feedback“, dessen Ziel es ist, menschliche Präferenzen zu nutzen, um das Dialogmodell so anzupassen, dass es sowohl „nützlich“ als auch „harmlos“ ist.
    • Dieser Datensatz besteht aus gepaarten Antwortvergleichsproben (jeweils mit einer gewählten/abgelehnten Antwort) und deckt Nützlichkeit (aus Basis-, Ablehnungs- und Online-Quellen) und Harmlosigkeit (Basis) ab. Das Datenformat ist einfach und unkompliziert, daher wird eine direkte SFT nicht empfohlen. Es eignet sich für Szenarien wie RLHF/DPO-Training, die Erstellung von Belohnungsmodellen sowie den Vergleich und die Bewertung der Antwortqualität.
  • Red Team-Konversationsdaten (Nicht-PM-Daten):
    • Die relevanten Papierergebnisse sindRed Teaming-Sprachmodelle zur Schadensminderung: Methoden, Skalierungsverhalten und gewonnene Erkenntnisse“, dessen Ziel es ist, die Arten von Angriffen und Erscheinungsformen von Schäden zu untersuchen und dazu beizutragen, die Schädlichkeit von Modellen zu verringern.
    • Dieser Datensatz enthält vollständige Red-Team-Gesprächsprotokolle und Metadaten, darunter Transkript, min_harmlessness_score_transcript, Modelltyp, Bewertung, Aufgabenbeschreibung, Tags und mehr. Die Daten ähneln realen Red-Team-Prozessen und sind reichhaltig kommentiert. Sie werden nicht für Bias-Modellierung oder SFT verwendet, eignen sich aber für Szenarien wie Sicherheitsausrichtungsanalysen, Red-Team-Bewertungen, Schadensarteninduktion und Richtlinienverbesserungen.

HH-RLHF.torrent
Seeding 1Herunterladen 0Abgeschlossen 13Gesamtdownloads 72
  • HH-RLHF/
    • README.md
      1.98 KB
    • README.txt
      3.96 KB
      • data/
        • HH-RLHF.zip
          90.35 MB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HH-RLHF-Datensatz Zu Menschlichen Präferenzen | Datensätze | HyperAI