HyperAIHyperAI

Ensemble De Données Sur Les Préférences Humaines HH-RLHF

Date

il y a un mois

Taille

90.35 MB

Organisation

Anthropique

URL de publication

huggingface.co

URL de l'article

2209.07858

Licence

MIT

*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

HH-RLHF est un ensemble de données sur les préférences humaines publié par Anthropic en 2022, qui se compose principalement de deux parties.

Composition de l'ensemble de données :

  • Données sur les préférences humaines bénéfiques/inoffensives (données PM) :
    • Les résultats pertinents de l'article sontFormer un assistant utile et inoffensif grâce à l'apprentissage par renforcement à partir du feedback humain", qui vise à utiliser les préférences humaines pour ajuster le modèle de dialogue afin qu'il soit à la fois « bénéfique » et « inoffensif ».
    • Cet ensemble de données se compose d'échantillons de comparaison de réponses appariées (chacun contenant une réponse choisie/rejetée), couvrant l'utilité (de base, échantillonnée avec rejet et sources en ligne) et l'innocuité (de base). Le format des données étant simple et direct, l'analyse SFT directe n'est pas recommandée. Il convient à des scénarios tels que l'entraînement RLHF/DPO, la création de modèles de récompense et la comparaison et l'évaluation de la qualité des réponses.
  • Données de conversation de l'équipe rouge (données non PM) :
    • Les résultats pertinents de l'article sontModèles linguistiques de Red Teaming pour réduire les risques : méthodes, adaptation des comportements et enseignements tirés", qui vise à étudier les types d'attaques et les manifestations de préjudice, et à contribuer à réduire la nocivité des modèles.
    • Cet ensemble de données comprend les transcriptions complètes des conversations de l'équipe rouge et leurs métadonnées, notamment la transcription, le score minimal d'innocuité, le type de modèle, la notation, la description de la tâche, les balises, etc. Ces données sont proches des processus réels de l'équipe rouge et sont richement annotées. Elles ne sont pas utilisées pour la modélisation des biais ni pour la SFT, mais conviennent à des scénarios tels que l'analyse de l'alignement de la sécurité, les évaluations de l'équipe rouge, l'induction des types de dommages et l'amélioration des politiques.

HH-RLHF.torrent
Partage 1Téléchargement 0Terminés 8Téléchargements totaux 32
  • HH-RLHF/
    • README.md
      1.98 KB
    • README.txt
      3.96 KB
      • data/
        • HH-RLHF.zip
          90.35 MB