HyperAI

Ensemble De Données D'alignement Des Préférences Humaines HelpSteer2

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

HelpSteer2 est un ensemble de données open source créé conjointement par NVIDIA et Scale AI en 2024. Il vise à former un modèle de récompense capable de guider les grands modèles linguistiques (LLM) pour générer des réponses de haute qualité qui répondent aux préférences humaines. Les résultats de l'article connexe sont «HelpSteer2 : ensemble de données open source pour la formation des modèles de récompense les plus performantsIl est mis à jour à partir de l'ensemble de données HelpSteer pour s'adapter aux LLM actuels, plus puissants. HelpSteer2 contient environ dix mille paires de réponses, ce qui est un ordre de grandeur inférieur aux ensembles de données de préférences existants, mais il est très efficace pour former des modèles de récompense.

L'ensemble de données a été collecté en prenant des invites de la plateforme ShareGPT et en générant des réponses à l'aide d'un puissant modèle de base interne. Le processus d’annotation des réponses nécessitait au moins trois annotateurs pour annoter chaque réponse afin d’améliorer la qualité de l’annotation. Les statistiques de HelpSteer2 montrent que les réponses du modèle obtiennent des scores plus élevés en termes d'utilité, d'exactitude, de cohérence, de complexité et de verbosité par rapport à l'ensemble de données HelpSteer.

L'ensemble de données HelpSteer2 est très efficace pour former des modèles de récompense. Par exemple, le modèle Llama 3 70B formé avec HelpSteer2 a obtenu un score de 92,0% sur l'ensemble de données principal Reward-Bench, surpassant tous les modèles publics et propriétaires répertoriés au 12 juin 2024. De plus, l'équipe de recherche a également proposé la méthode d'alignement de modèle SteerLM 2.0, qui peut utiliser efficacement les riches scores multi-attributs prédits par le modèle de récompense.

HelpSteer2.torrent
Partage 2Téléchargement 1Terminés 68Téléchargements totaux 129
  • HelpSteer2/
    • README.md
      2.08 KB
    • README.txt
      4.15 KB
      • data/
        • HelpSteer2.zip
          38.74 MB