Command Palette
Search for a command to run...
Ensemble De Données Sur Les Préférences Humaines HH-RLHF
Date
il y a 3 mois
Taille
90.35 MB
URL de l'article
Licence
MIT
HH-RLHF est un ensemble de données sur les préférences humaines publié par Anthropic en 2022, qui se compose principalement de deux parties.
Composition de l'ensemble de données :
- Données sur les préférences humaines bénéfiques/inoffensives (données PM) :
- Les résultats pertinents de l'article sontFormer un assistant utile et inoffensif grâce à l'apprentissage par renforcement à partir du feedback humain", qui vise à utiliser les préférences humaines pour ajuster le modèle de dialogue afin qu'il soit à la fois « bénéfique » et « inoffensif ».
- Cet ensemble de données se compose d'échantillons de comparaison de réponses appariées (chacun contenant une réponse choisie/rejetée), couvrant l'utilité (de base, échantillonnée avec rejet et sources en ligne) et l'innocuité (de base). Le format des données étant simple et direct, l'analyse SFT directe n'est pas recommandée. Il convient à des scénarios tels que l'entraînement RLHF/DPO, la création de modèles de récompense et la comparaison et l'évaluation de la qualité des réponses.
- Données de conversation de l'équipe rouge (données non PM) :
- Les résultats pertinents de l'article sontModèles linguistiques de Red Teaming pour réduire les risques : méthodes, adaptation des comportements et enseignements tirés", qui vise à étudier les types d'attaques et les manifestations de préjudice, et à contribuer à réduire la nocivité des modèles.
- Cet ensemble de données comprend les transcriptions complètes des conversations de l'équipe rouge et leurs métadonnées, notamment la transcription, le score minimal d'innocuité, le type de modèle, la notation, la description de la tâche, les balises, etc. Ces données sont proches des processus réels de l'équipe rouge et sont richement annotées. Elles ne sont pas utilisées pour la modélisation des biais ni pour la SFT, mais conviennent à des scénarios tels que l'analyse de l'alignement de la sécurité, les évaluations de l'équipe rouge, l'induction des types de dommages et l'amélioration des politiques.
HH-RLHF.torrent
Partage 1Téléchargement 0Terminés 13Téléchargements totaux 72
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.
Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Hyper Newsletters
Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp