HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen2.5-Math Technischer Bericht: Hin zum mathematischen Expertenmodell durch Selbstverbesserung

Zusammenfassung

In diesem Bericht stellen wir eine Reihe mathematikspezifischer großer Sprachmodelle vor: Qwen2.5-Math sowie Qwen2.5-Math-Instruct-1.5B/7B/72B. Der zentrale Innovationsansatz der Qwen2.5-Serie besteht darin, die Philosophie der selbstgesteuerten Verbesserung über den gesamten Pipeline-Verlauf – von der Vor-Training, über das Nach-Training bis hin zur Inferenz – hinweg zu integrieren: (1) Im Vor-Trainingsschritt wird Qwen2-Math-Instruct eingesetzt, um großskalige, hochwertige mathematische Datensätze zu generieren. (2) Im Nach-Trainingsschritt entwickeln wir ein Belohnungsmodell (Reward Model, RM), indem wir umfangreiche Stichproben aus Qwen2-Math-Instruct ziehen. Dieses RM wird anschließend zur iterativen Verbesserung der Daten im Rahmen des supervised fine-tuning (SFT) eingesetzt. Mit einem stärkeren SFT-Modell ist es möglich, das RM iterativ zu trainieren und zu aktualisieren, was wiederum die nächste Runde der SFT-Daten-Iteration leitet. Auf dem finalen SFT-Modell wird schließlich das endgültige RM für die Verstärkungslernverfahren (Reinforcement Learning) eingesetzt, was schließlich zu Qwen2.5-Math-Instruct führt. (3) Zudem wird das RM im Inferenzstadium genutzt, um die Stichprobenprozesse zu leiten und die Leistung des Modells zu optimieren.Qwen2.5-Math-Instruct unterstützt sowohl Chinesisch als auch Englisch und verfügt über fortgeschrittene Fähigkeiten im mathematischen Schlussfolgern, einschließlich Chain-of-Thought (CoT) und Tool-Integrated Reasoning (TIR). Wir evaluieren unsere Modelle an zehn mathematischen Datensätzen, sowohl auf Englisch als auch auf Chinesisch, wie beispielsweise GSM8K, MATH, GaoKao, AMC23 und AIME24, die eine Vielzahl von Schwierigkeitsgraden abdecken – von grundschulischen Aufgaben bis hin zu Problemen aus Mathematikwettbewerben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Qwen2.5-Math Technischer Bericht: Hin zum mathematischen Expertenmodell durch Selbstverbesserung | Paper | HyperAI