We-Math 2.0 : un système MathBook polyvalent pour inciter au raisonnement mathématique visuel

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont démontré des capacités impressionnantes sur diverses tâches, mais peinent encore à maîtriser le raisonnement mathématique complexe. La recherche existante se concentre principalement sur la construction de jeux de données et l'optimisation des méthodes, en négligeant fréquemment deux aspects cruciaux : une conception fondée sur une connaissance exhaustive et une modélisation de l'espace des données centrée sur le modèle. Dans cet article, nous présentons We-Math 2.0, un système unifié intégrant un système structuré de connaissance mathématique, une modélisation de l’espace des données centrée sur le modèle, ainsi qu’un paradigme d’apprentissage par renforcement (RL) afin d’améliorer de manière globale les capacités de raisonnement mathématique des MLLM. Les contributions principales de We-Math 2.0 sont quadruples : (1) Système de connaissance MathBook : nous avons construit un système hiérarchique à cinq niveaux comprenant 491 points de connaissance et 1 819 principes fondamentaux. (2) MathBook-Standard et MathBook-Pro : nous avons développé MathBook-Standard, un jeu de données assurant une couverture conceptuelle large et une flexibilité accrue grâce à une double extension. Par ailleurs, nous avons défini un espace de difficulté tridimensionnel et généré 7 variantes progressives par problème afin de constituer MathBook-Pro, un jeu de données exigeant destiné à un entraînement robuste. (3) MathBook-RL : nous proposons un cadre de RL en deux étapes comprenant : (i) une fine-tuning initiale (cold-start), qui aligne le modèle sur un raisonnement par chaîne de pensée orienté vers les connaissances ; et (ii) un apprentissage par renforcement d’alignement progressif, exploitant l’apprentissage basé sur une récompense moyenne et une planification dynamique des données pour atteindre un alignement progressif à travers les niveaux de difficulté. (4) MathBookEval : nous introduisons une évaluation complète couvrant les 491 points de connaissance, avec des distributions diversifiées des étapes de raisonnement. Les résultats expérimentaux montrent que MathBook-RL se distingue favorablement par rapport aux méthodes de référence sur quatre benchmarks largement utilisés, tout en obtenant de résultats solides sur MathBookEval, indiquant un potentiel prometteur en généralisation du raisonnement mathématique.