Command Palette
Search for a command to run...
Ensemble De Données De Référence De Raisonnement multi-domaines LoongBench
Date
URL de l'article
Licence
MIT
*Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
LoongBench est un ensemble de données d'évaluation de raisonnement multi-domaines publié par l'équipe CAMEL-AI en 2025. Les résultats de l'article associé sont «Loong : synthétiser une longue chaîne de pensées à grande échelle grâce à des vérificateurs", qui vise à fournir aux LLM des ressources de formation et d'évaluation multi-domaines et vérifiables.
L'ensemble de données contient 8 729 questions formulées en langage naturel, couvrant 12 domaines exigeant un raisonnement intensif, tels que les mathématiques avancées, la physique avancée, la chimie, la biologie computationnelle et la programmation. Chaque échantillon est accompagné d'un code exécutable et de réponses vérifiées, ainsi que de l'énoncé du problème, du raisonnement détaillé, de la solution finale, des métadonnées (identifiant de la question et informations sur le domaine) et des étiquettes de domaine. Il est idéal pour l'entraînement et l'évaluation des capacités de raisonnement inter-domaines.

Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.