We-Math 2.0: Ein vielseitiges MathBook-System zur Anreizschaffung für visuelles mathematisches Denken

Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben demonstriert, stoßen jedoch weiterhin bei komplexen mathematischen Schlussfolgerungen auf Schwierigkeiten. Die bestehende Forschung konzentriert sich hauptsächlich auf die Erstellung von Datensätzen und die Optimierung von Methoden, wobei zwei entscheidende Aspekte oft vernachlässigt werden: eine umfassende, wissensbasierte Gestaltung und die modellzentrierte Modellierung des Datenraums. In diesem Paper stellen wir We-Math 2.0 vor, ein integriertes System, das eine strukturierte mathematische Wissensbasis, eine modellzentrierte Datenraummodellierung sowie einen auf Verstärkendem Lernen (Reinforcement Learning, RL) basierenden Trainingsansatz kombiniert, um die mathematischen Schlussfolgerungsfähigkeiten von MLLMs umfassend zu verbessern. Die zentralen Beiträge von We-Math 2.0 sind vielfältig: (1) MathBook-Wissenssystem: Wir entwickeln ein fünfstufiges hierarchisches System, das 491 Wissenspunkte und 1.819 fundamentale Prinzipien umfasst. (2) MathBook-Standard & Pro: Wir erstellen MathBook-Standard, einen Datensatz, der durch eine doppelte Erweiterung eine breite konzeptionelle Abdeckung und hohe Flexibilität gewährleistet. Zudem definieren wir einen dreidimensionalen Schwierigkeitsraum und generieren für jedes Problem sieben fortschreitende Varianten, um MathBook-Pro, einen anspruchsvollen Datensatz für robuste Trainingszwecke, zu konstruieren. (3) MathBook-RL: Wir schlagen einen zweistufigen RL-Framework vor, bestehend aus (i) Cold-Start-Finetuning, welches das Modell an eine wissensbasierte, schrittweise Schlussfolgerung (Chain-of-Thought) anpasst, und (ii) Progressive Alignment RL, das durch durchschnittlichen Belohnungslernansatz und dynamische Datenscheduling-Strategien eine schrittweise Anpassung über verschiedene Schwierigkeitsstufen hinweg ermöglicht. (4) MathBookEval: Wir führen eine umfassende Benchmark ein, die alle 491 Wissenspunkte abdeckt und unterschiedliche Verteilungen von Schlussfolgerungsschritten berücksichtigt. Experimentelle Ergebnisse zeigen, dass MathBook-RL auf vier etablierten Benchmarks konkurrenzfähig mit bestehenden Baselines ist und herausragende Leistungen auf MathBookEval erzielt, was auf ein vielversprechendes Generalisierungsvermögen im Bereich mathematischer Schlussfolgerung hindeutet.