Orca-Math: Das Potenzial von SLMs in der Grundschulmathematik erschließen

Die Lösung mathematischer Textaufgaben wird seit langem als eine anspruchsvolle Aufgabe für kleine Sprachmodelle (Small Language Models, SLMs) erkannt. Eine kürzlich durchgeführte Studie vermutete, dass die kleinste Modellgröße, die eine Genauigkeit von über 80 % auf dem GSM8K-Benchmark erreicht, 34 Milliarden Parameter beträgt. Um mit kleineren Modellen diese Leistung zu erzielen, trainieren Forscher SLMs häufig dazu, Python-Code zu generieren, oder nutzen externe Werkzeuge, um Rechenfehler zu vermeiden. Zudem setzen sie Ensembling-Techniken ein, bei denen die Ausgaben bis zu 100 Modellläufe kombiniert werden, um ein genaueres Ergebnis zu erzielen. Die Ergebniswahl erfolgt dabei über Konsens, Mehrheitsentscheidung oder mithilfe eines separaten Verifikationsmodells, das gemeinsam mit dem SLM eingesetzt wird. Obwohl Ensembling eine erhebliche Steigerung der Genauigkeit ermöglicht, geht dies mit einem signifikanten Kostenaufwand einher, da mehrfache Aufrufe des Modells notwendig sind (beispielsweise verwendet Phi-GSM die Top-48-Strategie, um die Leistung von 68,2 % auf 81,5 % zu steigern).In dieser Arbeit präsentieren wir Orca-Math, ein 7-Milliarden-Parameter-SLM auf Basis von Mistral-7B, das eine Genauigkeit von 86,81 % auf GSM8K erreicht, ohne dass mehrfache Modellaufrufe, Verifikationsmodelle, Code-Ausführung oder andere externe Werkzeuge erforderlich sind. Unser Ansatz zeichnet sich durch folgende zentrale Elemente aus: (1) Ein hochwertiges synthetisches Datensatz mit 200.000 mathematischen Aufgaben, der mithilfe einer Multi-Agenten-Setup erstellt wurde, bei dem Agenten kooperativ die Daten generieren; (2) Eine iterative Lernmethode, die es dem SLM ermöglicht, Aufgaben zu lösen, Feedback zu seinen Lösungen zu erhalten und aus Präferenzpaaren zu lernen, die sowohl die SLM-Lösungen als auch das Feedback enthalten. Bei Verwendung von Supervised Fine-Tuning allein erreicht Orca-Math eine Genauigkeit von 81,50 % auf dem GSM8K-Pass@1-Maß. Mit der iterativen Präferenzlernmethode steigt die Leistung auf 86,81 % Pass@1. Orca-Math übertrifft die Leistung deutlich größerer Modelle wie LLAMA-2-70B, WizardMath-70B, Gemini-Pro und ChatGPT-3.5. Zudem erzielt es signifikant bessere Ergebnisse als andere kleinere Modelle, obwohl es mit wesentlich geringerem Datenvolumen (hunderttausende statt Millionen von Aufgaben) trainiert wurde.