vor 11 Tagen

GSM-Plus: Ein umfassender Benchmark zur Bewertung der Robustheit von LLMs als mathematische Problemlöser

Qintong Li, Leyang Cui, Xueliang Zhao, Lingpeng Kong, Wei Bi

Abstract

Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei verschiedenen mathematischen Schlussfolgerungsbewertungen erzielt. Dennoch nimmt die Debatte zu, ob diese Modelle mathematisches Wissen tatsächlich verstehen und anwenden oder lediglich auf Kurzschlüsse bei der mathematischen Schlussfolgerung zurückgreifen. Ein wesentlicher und häufig auftretender Beleg hierfür ist, dass LLMs bei geringfügigen Änderungen an mathematischen Fragen fehlerhaft reagieren können. Dies motiviert uns, die Robustheit der mathematischen Schlussfolgerungsfähigkeit von LLMs durch die Prüfung einer Vielzahl von Fragevariationen zu evaluieren. Wir stellen die adversarische Grundschulmathematik-Datenbank (GSM-Plus) vor, eine Erweiterung von GSM8K, die durch verschiedene mathematische Störungen ergänzt wurde. Unsere Experimente an 25 LLMs und 4 Prompting-Techniken zeigen, dass LLMs zwar unterschiedliche Grade an mathematischer Schlussfolgerungsfähigkeit aufweisen, ihre Leistung jedoch weit von Robustheit entfernt ist. Insbesondere können LLMs auch bei Problemen, die bereits in GSM8K gelöst wurden, Fehler begehen, wenn neue Aussagen hinzugefügt oder die Frageziele verändert werden. Zudem untersuchen wir, ob durch Kombination bestehender Prompting-Methoden eine robustere Leistung erzielt werden kann, wobei wir eine iterative Methode testen, die jeweils jeden intermediären Gedanken auf Basis seines Schlussfolgerungsziels und des Berechnungsergebnisses generiert und überprüft.