WizardMath: Mathematische Schlussfolgerung für große Sprachmodelle durch verstärktes Evol-Instruct stärken

Große Sprachmodelle (LLMs), wie beispielsweise GPT-4, haben beachtliche Leistungen in Aufgaben des natürlichen Sprachverstehens (NLP) gezeigt, darunter auch anspruchsvolle mathematische Schlussfolgerungen. Die meisten der derzeit verfügbaren Open-Source-Modelle sind jedoch lediglich auf umfangreichen Internetdaten vortrainiert und weisen keine spezifische Optimierung für mathematische Inhalte auf. In diesem Paper stellen wir WizardMath vor, ein Modell, das die Fähigkeit von LLMs zur mathematischen CoT-Schlussfolgerung (Chain-of-Thought) verbessert, ohne externe Python-Tools zu nutzen. Dies wird durch die Anwendung unserer neu entwickelten Methode des Verstärkenden Lernens aus Evol-Instruct-Rückmeldungen (RLEIF) im mathematischen Bereich erreicht. Anhand umfangreicher Experimente auf zwei Benchmark-Datensätzen für mathematische Schlussfolgerung – GSM8k und MATH – zeigen wir die außergewöhnlichen Fähigkeiten unseres Modells auf. Besonders hervorzuheben ist, dass WizardMath-Mistral 7B deutlich über führende Open-Source-LLMs hinausgeht, wobei eine höhere Dateneffizienz erreicht wird. Darüber hinaus übertrifft WizardMath 70B sogar GPT-3.5-Turbo, Claude 2, Gemini Pro und die frühe Version von GPT-4. Zudem verdeutlicht unsere vorläufige Untersuchung die entscheidende Rolle der Anweisungsevolution und der Prozessüberwachung für herausragende Leistungen im mathematischen Bereich. Weitere Details finden sich unter: https://github.com/nlpxucan/WizardLM