Eine empirische Studie zur Datensystemgrenze bei der Mathematikschlussfolgerung in LLMs

Große Sprachmodelle (LLMs) zeigen emergente Fähigkeiten im Bereich mathematischer Schlussfolgerung, und es wächst das Interesse daran, die Leistung von Open-Source-LLMs durch überwachtes Feintuning (SFT) zu verbessern. In diesem Paper untersuchen wir eine allgemeine Datenstrategie für überwachtes Training, um die Fähigkeit zur mathematischen Schlussfolgerung zu optimieren und zu erweitern. Zunächst bestimmen wir die Grenze der Erweiterung von Schlussfolgerungspfaden, indem wir deren minimal optimale Menge identifizieren. Anschließend zeigen wir, dass verschiedene Fähigkeiten des Modells kumulativ durch die Kombination minimal optimaler Mengen entsprechender Datentypen gesteigert werden können, wobei unsere Modelle MMOS eine SOTA-Leistung auf mehreren Basis-Modellen erreichen, jedoch mit deutlich geringeren Konstruktionskosten. Darüber hinaus weisen wir darauf hin, dass GSM-HARD tatsächlich nicht besonders schwierig ist und heutige LLMs nicht mehr an numerischer Robustheit leiden. Zudem stellen wir einen automatischen Problemgenerator für die Robustheitstestung und pädagogische Anwendungen vor. Unser Code und die Daten sind öffentlich unter https://github.com/cyzhh/MMOS verfügbar.