Kumulative Schlussfolgerung mit großen Sprachmodellen

Neuere Fortschritte bei großen Sprachmodellen (LLMs) haben beeindruckende Fortschritte gezeigt, dennoch bleibt ihre Fähigkeit, komplexe Probleme zu lösen, weiterhin eingeschränkt. In dieser Arbeit stellen wir Cumulative Reasoning (CR) vor, einen Ansatz, der LLMs kumulativ und iterativ nutzt und damit menschliche Denkprozesse beim Problemlösen nachahmt. CR zerlegt Aufgaben in kleinere, handhabbare Komponenten und nutzt frühere Aussagen effektiv zur Komposition, wodurch die Problemlösefähigkeit erheblich verbessert wird. Wir zeigen die Vorteile von CR an mehreren komplexen Schlussfolgerungsaufgaben: Bei logischen Schlussfolgerungsaufgaben übertrifft CR bestehende Methoden um bis zu 9,3 % und erreicht eine Genauigkeit von 98,04 % auf dem kuratierten FOLIO-Wiki-Datensatz. Beim „Game of 24“ erzielt CR eine Genauigkeit von 98 %, was einer Verbesserung um 24 % gegenüber der vorherigen State-of-the-Art entspricht. Bei der Lösung von MATH-Aufgaben erreicht CR eine Steigerung um 4,2 % gegenüber früheren Methoden und eine relative Verbesserung um 43 % bei den anspruchsvollsten Aufgaben der Schwierigkeitsstufe 5. Bei der Integration einer Code-Umgebung mit CR nutzen wir zudem die Schlussfolgerungsfähigkeiten von LLMs effizienter und übertrumpfen die Program of Thought (PoT)-Methode um 38,8 %. Der Quellcode ist unter https://github.com/iiis-ai/cumulative-reasoning verfügbar.