vor 15 Tagen

Qwen2.5-Math Technischer Bericht: Hin zum mathematischen Expertenmodell durch Selbstverbesserung

An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang

Details der Forschungsarbeit anzeigen

Qwen2.5-Math Technischer Bericht: Hin zum mathematischen Expertenmodell durch Selbstverbesserung

Abstract

In diesem Bericht stellen wir eine Reihe mathematikspezifischer großer Sprachmodelle vor: Qwen2.5-Math sowie Qwen2.5-Math-Instruct-1.5B/7B/72B. Der zentrale Innovationsansatz der Qwen2.5-Serie besteht darin, die Philosophie der selbstgesteuerten Verbesserung über den gesamten Pipeline-Verlauf – von der Vor-Training, über das Nach-Training bis hin zur Inferenz – hinweg zu integrieren: (1) Im Vor-Trainingsschritt wird Qwen2-Math-Instruct eingesetzt, um großskalige, hochwertige mathematische Datensätze zu generieren. (2) Im Nach-Trainingsschritt entwickeln wir ein Belohnungsmodell (Reward Model, RM), indem wir umfangreiche Stichproben aus Qwen2-Math-Instruct ziehen. Dieses RM wird anschließend zur iterativen Verbesserung der Daten im Rahmen des supervised fine-tuning (SFT) eingesetzt. Mit einem stärkeren SFT-Modell ist es möglich, das RM iterativ zu trainieren und zu aktualisieren, was wiederum die nächste Runde der SFT-Daten-Iteration leitet. Auf dem finalen SFT-Modell wird schließlich das endgültige RM für die Verstärkungslernverfahren (Reinforcement Learning) eingesetzt, was schließlich zu Qwen2.5-Math-Instruct führt. (3) Zudem wird das RM im Inferenzstadium genutzt, um die Stichprobenprozesse zu leiten und die Leistung des Modells zu optimieren.Qwen2.5-Math-Instruct unterstützt sowohl Chinesisch als auch Englisch und verfügt über fortgeschrittene Fähigkeiten im mathematischen Schlussfolgern, einschließlich Chain-of-Thought (CoT) und Tool-Integrated Reasoning (TIR). Wir evaluieren unsere Modelle an zehn mathematischen Datensätzen, sowohl auf Englisch als auch auf Chinesisch, wie beispielsweise GSM8K, MATH, GaoKao, AMC23 und AIME24, die eine Vielzahl von Schwierigkeitsgraden abdecken – von grundschulischen Aufgaben bis hin zu Problemen aus Mathematikwettbewerben.