Ensemble De Données De Raisonnement Multi-domaines Vérifié Par WebInstruct
Date
URL de publication
Licence
Apache 2.0
Catégories
WebInstruct-verified est un ensemble de données de raisonnement multi-domaines publié conjointement par l'Université de Waterloo et le Vector Institute en 2025. Les résultats de l'article associé sont «General-Reasoner : faire progresser le raisonnement LLM dans tous les domaines", qui vise à améliorer la capacité de raisonnement des LLM dans divers domaines tout en conservant leurs points forts en mathématiques.
Cet ensemble de données contient environ 230 000 questions de raisonnement, couvrant divers formats de réponses, notamment des questions à choix multiples et une répartition équilibrée des jeux de données d'expressions numériques. Il couvre principalement des disciplines telles que les mathématiques, la physique, la chimie, la finance et diverses autres sciences humaines et sociales.
Caractéristiques du jeu de données :
- Formation Zero RL : Apprentissage par renforcement direct à partir du LLM de base, contournant l'étape de supervision intermédiaire.
- Données de raisonnement diverses : plus de 230 000 questions vérifiables et de haute qualité provenant du Web, filtrées pour la vérifiabilité des réponses dans toutes les disciplines.
- Vérificateur basé sur un modèle : un modèle de vérificateur génératif compact de 1,5 B pour la vérification des réponses en chaîne de pensée et sensible au contexte qui surpasse les approches traditionnelles basées sur des règles.
