vor 8 Tagen

MiroMind-M1: Ein Open-Source Fortschritt in der mathematischen Reasoning durch kontextbewusste mehrstufige Policy-Optimierung

Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing

Details der Forschungsarbeit anzeigen

MiroMind-M1: Ein Open-Source Fortschritt in der mathematischen Reasoning durch kontextbewusste mehrstufige Policy-Optimierung

Abstract

Große Sprachmodelle haben sich kürzlich von der flüssigen Textgenerierung zu fortgeschrittener Schlussfolgerung über verschiedene Domänen weiterentwickelt, was zu sogenannten Schlussfolgerungs-Sprachmodellen (Reasoning Language Models, RLMs) geführt hat. In diesen Domänen ist mathematisches Schlussfolgern ein repräsentatives Benchmark-Beispiel, da es präzise mehrstufige Logik und abstraktes Denken erfordert, die auf andere Aufgaben übertragbar sind. Obwohl geschlossene RLMs wie GPT-o3 beeindruckende Schlussfolgerungsfähigkeiten zeigen, beschränkt ihre proprietäre Natur die Transparenz und Nachvollziehbarkeit. Obwohl viele Open-Source-Projekte darauf abzielen, diese Lücke zu schließen, fehlen den meisten von ihnen ausreichende Offenheit, da sie kritische Ressourcen wie Datensätze und detaillierte Trainingskonfigurationen weglassen, was die Nachvollziehbarkeit behindert. Um zur größeren Transparenz in der Entwicklung von RLMs beizutragen, führen wir die MiroMind-M1-Serie ein, eine Reihe vollständig Open-Source-Sprachmodelle, die auf der Qwen-2.5-Plattform basieren und die Leistungsfähigkeit bestehender Open-Source-RLMs erreichen oder übertreffen. Im Detail wurden unsere Modelle in zwei Stufen trainiert: SFT (Supervised Fine-Tuning) auf einem sorgfältig zusammengestellten Korpus mit 719.000 mathematischen Schlussfolgerungsproblemen, die mit verifizierten CoT (Chain-of-Thought)-Trajektorien versehen sind, gefolgt von RLVR (Reinforcement Learning with Verified Rewards) auf 62.000 anspruchsvollen und verifizierbaren Problemen. Um die Robustheit und Effizienz des RLVR-Prozesses zu verbessern, führen wir Context-Aware Multi-Stage Policy Optimization ein, einen Algorithmus, der eine length-progressive Trainingsstrategie mit einem adaptiven Wiederholungspenalty kombiniert, um kontextbewusstes RL-Training zu fördern. Unsere Modelle erzielen state-of-the-art oder konkurrierende Leistung und eine überlegene Token-Effizienz im Vergleich zu Qwen-2.5-basierten Open-Source-Modellen der Größenordnungen 7B und 32B auf den Benchmarks AIME24, AIME25 und MATH. Um die Nachvollziehbarkeit zu erleichtern, veröffentlichen wir den gesamten Stack: Modelle (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); Datensätze (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); sowie alle Trainings- und Evaluierungskonfigurationen. Wir hoffen, dass diese Ressourcen weitere Forschungen unterstützen und den Fortschritt der Community fördern werden.