ToRA: Ein werkzeugintegrierter Reasoning-Agent zur Lösung mathematischer Probleme

Große Sprachmodelle haben erhebliche Fortschritte bei verschiedenen Sprachaufgaben erzielt, zeigen jedoch weiterhin Schwierigkeiten bei komplexen mathematischen Aufgaben. In diesem Artikel stellen wir ToRA vor – eine Reihe von tool-integrierten Reasoning-Agenten, die darauf abzielen, anspruchsvolle mathematische Probleme zu lösen, indem sie nahtlos natürlichsprachliche Schlussfolgerungen mit der Nutzung externer Werkzeuge (z. B. Berechnungsbibliotheken und symbolische Löser) verbinden. Dadurch wird die analytische Stärke von Sprachmodellen mit der Rechenleistung von Werkzeugen kombiniert. Zur Trainingsphase von ToRA sammeln wir interaktive Werkzeugnutzungsverläufe auf mathematischen Datensätzen, wenden Imitationslernen auf die Annotationen an und schlagen eine Output-Raum-Formung vor, um das Schlussfolgerungsverhalten der Modelle weiter zu verfeinern. Als Ergebnis übertrifft das ToRA-Modell signifikant offene Quellcode-Modelle auf zehn mathematischen Schlussfolgerungs-Datensätzen in allen Größenordnungen, wobei es im Durchschnitt um 13 % bis 19 % absolute Verbesserungen erzielt. Besonders hervorzuheben ist, dass ToRA-7B eine Genauigkeit von 44,6 % auf dem wettbewerbsfähigen Datensatz MATH erreicht und damit das beste offene Quellcode-Modell, WizardMath-70B, um 22 % absolut übertrifft. Zudem ist ToRA-Code-34B das erste offene Quellcode-Modell, das eine Genauigkeit von über 50 % auf MATH erreicht – es übertrifft erheblich das CoT-Ergebnis von GPT-4 und ist mit der Leistung von GPT-4 bei der Lösung von Problemen mittels Programme konkurrenzfähig. Zusätzlich führen wir eine umfassende Analyse der Vorteile und weiterhin bestehenden Herausforderungen der Werkzeuginteraktion für mathematische Schlussfolgerung durch und liefern wertvolle Erkenntnisse für zukünftige Forschung.