97 % auf GSM8K erreichen: Tiefes Verständnis der Probleme macht LLMs zu besseren Lösern für mathematische Textaufgaben

Die Chain-of-Thought-(CoT)-Prompting-Technik hat die Leistung von großen Sprachmodellen (LLMs) bei verschiedenen Schlussfolgerungsaufgaben erheblich verbessert. Dennoch bleibt CoT bei der Bewältigung komplexer mathematischer Textaufgaben hinter den Erwartungen zurück, da es typischerweise drei Hauptprobleme aufweist: semantische Missverständnisse, Rechenfehler und fehlende Lösungsschritte. Bisherige Studien haben sich hauptsächlich mit der Behebung von Rechenfehlern und fehlenden Schritten beschäftigt, während semantische Missverständnisse vernachlässigt wurden – ein entscheidender Faktor, der die Schlussfolgerungsfähigkeit von LLMs erheblich einschränkt. Um diesem Problem zu begegnen, stellen wir eine einfache, jedoch wirksame Methode vor, die wir Deeply Understanding the Problems (DUP) nennen, um die Fähigkeit von LLMs zur Lösung mathematischer Aufgaben durch die Behandlung semantischer Missverständnisse zu verbessern. Der Kern unserer Methode besteht darin, die LLMs dazu zu ermutigen, die Aufgaben tiefgehend zu verstehen und die für eine bessere Schlussfolgerung entscheidenden Informationen gezielt zu extrahieren. Umfangreiche Experimente an zehn unterschiedlichen Schlussfolgerungsbenchmarks zeigen, dass unsere DUP-Methode konsistent und deutlich besser abschneidet als andere Ansätze. Besonders ermutigend ist, dass DUP auf dem GSM8K-Benchmark eine neue SOTA-Leistung erzielt, mit einer Genauigkeit von 97,1 % im Zero-Shot-Setting.