HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'alignement Des Préférences Humaines HelpSteer2

Date

il y a un an

Taille

38.74 MB

Organisation

NVIDIA

URL du document

huggingface.co

Licence

CC BY 4.0

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

HelpSteer2 est un ensemble de données open source créé conjointement par NVIDIA et Scale AI en 2024. Il vise à former un modèle de récompense capable de guider les grands modèles linguistiques (LLM) pour générer des réponses de haute qualité qui répondent aux préférences humaines. Les résultats de l'article connexe sont «HelpSteer2 : ensemble de données open source pour la formation des modèles de récompense les plus performantsIl est mis à jour à partir de l'ensemble de données HelpSteer pour s'adapter aux LLM actuels, plus puissants. HelpSteer2 contient environ dix mille paires de réponses, ce qui est un ordre de grandeur inférieur aux ensembles de données de préférences existants, mais il est très efficace pour former des modèles de récompense.

L'ensemble de données a été collecté en prenant des invites de la plateforme ShareGPT et en générant des réponses à l'aide d'un puissant modèle de base interne. Le processus d’annotation des réponses nécessitait au moins trois annotateurs pour annoter chaque réponse afin d’améliorer la qualité de l’annotation. Les statistiques de HelpSteer2 montrent que les réponses du modèle obtiennent des scores plus élevés en termes d'utilité, d'exactitude, de cohérence, de complexité et de verbosité par rapport à l'ensemble de données HelpSteer.

L'ensemble de données HelpSteer2 est très efficace pour former des modèles de récompense. Par exemple, le modèle Llama 3 70B formé avec HelpSteer2 a obtenu un score de 92,0% sur l'ensemble de données principal Reward-Bench, surpassant tous les modèles publics et propriétaires répertoriés au 12 juin 2024. De plus, l'équipe de recherche a également proposé la méthode d'alignement de modèle SteerLM 2.0, qui peut utiliser efficacement les riches scores multi-attributs prédits par le modèle de récompense.

HelpSteer2.torrent
Seeding 1Téléchargement 0Terminé 201Total Downloads 422
  • HelpSteer2/
    • README.md
      2.08 KB
    • README.txt
      4.15 KB
      • data/
        • HelpSteer2.zip
          38.74 MB

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp