Ensemble De Données De Référence Pour Le Raisonnement Mathématique Multilingue PolyMath
Date
URL de l'article
PolyMath est un ensemble de données d'évaluation du raisonnement mathématique multilingue publié en 2025 par l'équipe Qianwen d'Alibaba en collaboration avec l'université Jiao Tong de Shanghai. L'article de recherche associé s'intitule « ... ».PolyMath : Évaluation du raisonnement mathématique dans des contextes multilinguesCette étude a été sélectionnée pour les ensembles de données et les benchmarks NeurIPS 2025, dans le but d'évaluer systématiquement la compréhension mathématique, la profondeur du raisonnement et la performance de cohérence interlinguistique des grands modèles de langage dans des conditions multilingues.
Cet ensemble de données contient 500 questions de raisonnement mathématique de haute qualité, réparties en 125 questions par niveau de difficulté. Il couvre 18 langues et 4 niveaux de difficulté, avec 18 versions linguistiques parallèles adaptées aux langues à ressources élevées et faibles, et représente plus de 751 000 locuteurs natifs à travers le monde. L’éventail de difficulté s’étend des mathématiques fondamentales du primaire et du secondaire aux Olympiades et aux domaines mathématiques de pointe, permettant ainsi de constituer un système d’évaluation du raisonnement mathématique de haute qualité, multidimensionnel et hautement discriminant.
Distribution des données :
- Nombre et répartition des questions : Chaque langue propose 125 questions à chaque niveau de difficulté, formant une composition de difficulté équilibrée.
- Critères de classification de la difficulté : Divisé en quatre niveaux en fonction de la « profondeur de la réflexion » et de l’« étendue des connaissances » :
- Niveau 1 : Notions de base (de la maternelle à la terminale)
- Niveau 2 : Avancé (Lycée à classes supérieures)
- Niveau 3 : Difficulté élevée (niveau olympique)
- Niveau 4 : À la pointe de la technologie (Mathématiques avancées et raisonnement de niveau recherche)
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.