Effiziente LMs, die darauf trainiert wurden, symbolische Löser aufzurufen, erreichen parameter-effizientes arithmetisches Schließen

Große Sprachmodelle (LLM) zeigen eine nullschrittige mathematische Schlussfolgerungsfähigkeit als emergentes Verhalten, das mit der Modellgröße zunimmt und sich häufig in Form von Kettengedanken (Chain-of-Thought, CoT) manifestiert. Mehrere empirische Befunde deuten jedoch darauf hin, dass diese Fähigkeit ausschließlich bei LLMs mit außerordentlich großem Umfang (über 50 Milliarden Parameter) auftritt. Gleichzeitig legen bildungswissenschaftliche neurologische Studien nahe, dass symbolische algebraische Manipulation gleichzeitig mit der Behandlung arithmetischer Textaufgaben eingeführt werden sollte, um die Prozesse der Sprache-zu-Formulierung, der symbolischen Manipulation der Formulierung und der abschließenden Arithmetik modular zu gestalten. In diesem Paper gehen wir von der Hypothese aus, dass viel kleinere Sprachmodelle, die bei mehrschrittigen Schlussfolgerungen schwach sind, dennoch eine vernünftige arithmetische Schlussfolgerung erzielen können, wenn arithmetische Textaufgaben als Aufgabe der Formulierung-gefolgt-von-Lösung präsentiert werden. In unserer Architektur, die wir SYRELM nennen, übernimmt das Sprachmodell die Rolle eines Übersetzers, der natürlichsprachliche arithmetische Fragen in eine formale Sprache (FL) übersetzt. Ein symbolischer Solver bewertet dann den FL-Ausdruck, um die Antwort zu ermitteln. Ein kleines, gefrorenes Sprachmodell, ausgestattet mit einem effizienten Low-Rank-Adapter, ist in der Lage, FL-Ausdrücke zu generieren, die natürlichsprachliche Beschreibungen des arithmetischen Problems enthalten (z. B. Variablennamen und deren Zwecke, formale Ausdrücke, die Variablen kombinieren usw.). Wir verwenden Policy-Gradient-Verstärkungslernen, um das angepasste Modell zu trainieren, wobei die nicht-differenzierbare symbolische Solver als Feedbackquelle dienen. Dies stellt einen deutlichen Bruch mit der jüngsten Entwicklung bei tool-erweiterten LLMs dar, bei denen externe Werkzeuge (z. B. Taschenrechner, Web-Suche) im Wesentlichen vom Lernprozess des Sprachmodells getrennt sind. SYRELM erreicht erhebliche Verbesserungen (z. B. eine absolute Genauigkeitssteigerung um +30,65 Punkte auf dem SVAMP-Datensatz bei Verwendung des GPT-J 6B-Modells) gegenüber Basis-LLMs, während unsere Testumgebung dennoch einfach zu diagnostizieren, interpretierbar und für die meisten Forscher zugänglich bleibt.