HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données De Raisonnement multi-domaines Vérifié Par WebInstruct

Date

il y a 3 mois

Organisation

Université de Waterloo

URL de l'article

arxiv.org

Licence

Apache 2.0

Rejoignez la communauté Discord

WebInstruct-verified est un ensemble de données de raisonnement multi-domaines publié conjointement par l'Université de Waterloo et le Vector Institute en 2025. Les résultats de l'article associé sont «General-Reasoner : faire progresser le raisonnement LLM dans tous les domaines", qui vise à améliorer la capacité de raisonnement des LLM dans divers domaines tout en conservant leurs points forts en mathématiques.

Cet ensemble de données contient environ 230 000 questions de raisonnement, couvrant divers formats de réponses, notamment des questions à choix multiples et une répartition équilibrée des jeux de données d'expressions numériques. Il couvre principalement des disciplines telles que les mathématiques, la physique, la chimie, la finance et diverses autres sciences humaines et sociales.

Caractéristiques du jeu de données :

  • Formation Zero RL : Apprentissage par renforcement direct à partir du LLM de base, contournant l'étape de supervision intermédiaire.
  • Données de raisonnement diverses : plus de 230 000 questions vérifiables et de haute qualité provenant du Web, filtrées pour la vérifiabilité des réponses dans toutes les disciplines.
  • Vérificateur basé sur un modèle : un modèle de vérificateur génératif compact de 1,5 B pour la vérification des réponses en chaîne de pensée et sensible au contexte qui surpasse les approches traditionnelles basées sur des règles.
Distribution des champs de l'ensemble de données

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données De Raisonnement multi-domaines Vérifié Par WebInstruct | Ensembles de données | HyperAI