HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente LMs, die darauf trainiert wurden, symbolische Löser aufzurufen, erreichen parameter-effizientes arithmetisches Schließen

Subhabrata Dutta Joykirat Singh Ishan Pandey Sunny Manchanda Soumen Chakrabarti Tanmoy Chakraborty

Zusammenfassung

Große Sprachmodelle (LLM) zeigen eine nullschrittige mathematische Schlussfolgerungsfähigkeit als emergentes Verhalten, das mit der Modellgröße zunimmt und sich häufig in Form von Kettengedanken (Chain-of-Thought, CoT) manifestiert. Mehrere empirische Befunde deuten jedoch darauf hin, dass diese Fähigkeit ausschließlich bei LLMs mit außerordentlich großem Umfang (über 50 Milliarden Parameter) auftritt. Gleichzeitig legen bildungswissenschaftliche neurologische Studien nahe, dass symbolische algebraische Manipulation gleichzeitig mit der Behandlung arithmetischer Textaufgaben eingeführt werden sollte, um die Prozesse der Sprache-zu-Formulierung, der symbolischen Manipulation der Formulierung und der abschließenden Arithmetik modular zu gestalten. In diesem Paper gehen wir von der Hypothese aus, dass viel kleinere Sprachmodelle, die bei mehrschrittigen Schlussfolgerungen schwach sind, dennoch eine vernünftige arithmetische Schlussfolgerung erzielen können, wenn arithmetische Textaufgaben als Aufgabe der Formulierung-gefolgt-von-Lösung präsentiert werden. In unserer Architektur, die wir SYRELM nennen, übernimmt das Sprachmodell die Rolle eines Übersetzers, der natürlichsprachliche arithmetische Fragen in eine formale Sprache (FL) übersetzt. Ein symbolischer Solver bewertet dann den FL-Ausdruck, um die Antwort zu ermitteln. Ein kleines, gefrorenes Sprachmodell, ausgestattet mit einem effizienten Low-Rank-Adapter, ist in der Lage, FL-Ausdrücke zu generieren, die natürlichsprachliche Beschreibungen des arithmetischen Problems enthalten (z. B. Variablennamen und deren Zwecke, formale Ausdrücke, die Variablen kombinieren usw.). Wir verwenden Policy-Gradient-Verstärkungslernen, um das angepasste Modell zu trainieren, wobei die nicht-differenzierbare symbolische Solver als Feedbackquelle dienen. Dies stellt einen deutlichen Bruch mit der jüngsten Entwicklung bei tool-erweiterten LLMs dar, bei denen externe Werkzeuge (z. B. Taschenrechner, Web-Suche) im Wesentlichen vom Lernprozess des Sprachmodells getrennt sind. SYRELM erreicht erhebliche Verbesserungen (z. B. eine absolute Genauigkeitssteigerung um +30,65 Punkte auf dem SVAMP-Datensatz bei Verwendung des GPT-J 6B-Modells) gegenüber Basis-LLMs, während unsere Testumgebung dennoch einfach zu diagnostizieren, interpretierbar und für die meisten Forscher zugänglich bleibt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effiziente LMs, die darauf trainiert wurden, symbolische Löser aufzurufen, erreichen parameter-effizientes arithmetisches Schließen | Paper | HyperAI