Command Palette
Search for a command to run...
Ensemble De Données Sur Les Préférences Humaines HH-RLHF
Date
il y a 4 mois
Size
90.35 MB
Paper URL
License
MIT
HH-RLHF est un ensemble de données sur les préférences humaines publié par Anthropic en 2022, qui se compose principalement de deux parties.
Composition de l'ensemble de données :
- Données sur les préférences humaines bénéfiques/inoffensives (données PM) :
- Les résultats pertinents de l'article sontFormer un assistant utile et inoffensif grâce à l'apprentissage par renforcement à partir du feedback humain", qui vise à utiliser les préférences humaines pour ajuster le modèle de dialogue afin qu'il soit à la fois « bénéfique » et « inoffensif ».
- Cet ensemble de données se compose d'échantillons de comparaison de réponses appariées (chacun contenant une réponse choisie/rejetée), couvrant l'utilité (de base, échantillonnée avec rejet et sources en ligne) et l'innocuité (de base). Le format des données étant simple et direct, l'analyse SFT directe n'est pas recommandée. Il convient à des scénarios tels que l'entraînement RLHF/DPO, la création de modèles de récompense et la comparaison et l'évaluation de la qualité des réponses.
- Données de conversation de l'équipe rouge (données non PM) :
- Les résultats pertinents de l'article sontModèles linguistiques de Red Teaming pour réduire les risques : méthodes, adaptation des comportements et enseignements tirés", qui vise à étudier les types d'attaques et les manifestations de préjudice, et à contribuer à réduire la nocivité des modèles.
- Cet ensemble de données comprend les transcriptions complètes des conversations de l'équipe rouge et leurs métadonnées, notamment la transcription, le score minimal d'innocuité, le type de modèle, la notation, la description de la tâche, les balises, etc. Ces données sont proches des processus réels de l'équipe rouge et sont richement annotées. Elles ne sont pas utilisées pour la modélisation des biais ni pour la SFT, mais conviennent à des scénarios tels que l'analyse de l'alignement de la sécurité, les évaluations de l'équipe rouge, l'induction des types de dommages et l'amélioration des politiques.
HH-RLHF.torrent
Seeding 1Downloading 0Completed 19Total Downloads 101
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.
AI Co-coding
Ready-to-use GPUs
Best Pricing
HyperAI Newsletters
Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp