PolyMath : Évaluation du raisonnement mathématique dans des contextes multilingues
PolyMath : Évaluation du raisonnement mathématique dans des contextes multilingues

Résumé
Dans cet article, nous introduisons PolyMath, un benchmark de raisonnement mathématique multilingue couvrant 18 langues et 4 niveaux de difficulté allant de facile à difficile. Notre benchmark garantit une couverture complète des niveaux de difficulté, une diversité linguistique significative et une traduction de haute qualité, ce qui en fait un benchmark multilingue fortement discriminant dans l'ère des grands modèles de raisonnement (LLM). Nous menons une évaluation approfondie des LLM avancés et constatons que même des modèles performants tels que Qwen-3-235B-A22B-Thinking et Gemini-2.5-pro obtiennent respectivement des scores de 54,6 et 52,2 sur ce benchmark, avec une précision d'environ 40 % au niveau le plus élevé. Du point de vue linguistique, notre benchmark met en évidence plusieurs défis clés auxquels sont confrontés les LLM en raisonnement multilingue : (1) la performance en raisonnement varie considérablement d'une langue à l'autre pour les LLM actuels ; (2) la cohérence entre la langue d'entrée et celle de la sortie est faible dans les LLM de raisonnement, et cette cohérence pourrait être corrélée à leur performance ; (3) la longueur du raisonnement diffère de manière significative selon la langue utilisée. En outre, nous démontrons que contrôler la langue de sortie dans les instructions peut influencer la performance en raisonnement, notamment pour certaines langues à faible ressource, ce qui suggère une piste prometteuse pour améliorer les capacités multilingues des LLM.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.