Lernen mehrschrittiger Schlussfolgerung durch Lösen arithmetischer Aufgaben

Mathematisches Schlussfolgern gilt als notwendige Fähigkeit für Sprachmodelle (Language Models, LMs). Neuere Arbeiten zeigen, dass große Sprachmodelle beeindruckende Leistungen bei der Lösung mathematischer Aufgaben erzielen. Der Erfolg wird auf ihre Fähigkeit zur Ketten-des-Denkens (Chain-of-Thought, CoT) zurückgeführt, d. h. der Fähigkeit, komplexe Fragen in schrittweise Schlussfolgerungsketten zu zerlegen. Diese Fähigkeit scheint jedoch nur bei Modellen mit einer großen Anzahl an Parametern zu entstehen. In dieser Arbeit untersuchen wir, wie man relativ kleine Sprachmodelle mit der Fähigkeit zur mehrschrittigen Schlussfolgerung ausstatten kann. Wir schlagen vor, diese Fähigkeiten durch kontinuierliches Vortrainieren von Sprachmodellen auf einem synthetischen Datensatz MsAT zu integrieren, der aus mehrschrittigen arithmetischen Aufgaben besteht. Unsere Experimente an vier Datensätzen mathematischer Textaufgaben belegen die Wirksamkeit des vorgeschlagenen Ansatzes zur Verbesserung der mathematischen Schlussfolgerungsfähigkeiten von Sprachmodellen.