HyperAIHyperAI

Command Palette

Search for a command to run...

GSM-Plus: Ein umfassender Benchmark zur Bewertung der Robustheit von LLMs als mathematische Problemlöser

Qintong Li Leyang Cui Xueliang Zhao Lingpeng Kong Wei Bi

Zusammenfassung

Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei verschiedenen mathematischen Schlussfolgerungsbewertungen erzielt. Dennoch nimmt die Debatte zu, ob diese Modelle mathematisches Wissen tatsächlich verstehen und anwenden oder lediglich auf Kurzschlüsse bei der mathematischen Schlussfolgerung zurückgreifen. Ein wesentlicher und häufig auftretender Beleg hierfür ist, dass LLMs bei geringfügigen Änderungen an mathematischen Fragen fehlerhaft reagieren können. Dies motiviert uns, die Robustheit der mathematischen Schlussfolgerungsfähigkeit von LLMs durch die Prüfung einer Vielzahl von Fragevariationen zu evaluieren. Wir stellen die adversarische Grundschulmathematik-Datenbank (GSM-Plus) vor, eine Erweiterung von GSM8K, die durch verschiedene mathematische Störungen ergänzt wurde. Unsere Experimente an 25 LLMs und 4 Prompting-Techniken zeigen, dass LLMs zwar unterschiedliche Grade an mathematischer Schlussfolgerungsfähigkeit aufweisen, ihre Leistung jedoch weit von Robustheit entfernt ist. Insbesondere können LLMs auch bei Problemen, die bereits in GSM8K gelöst wurden, Fehler begehen, wenn neue Aussagen hinzugefügt oder die Frageziele verändert werden. Zudem untersuchen wir, ob durch Kombination bestehender Prompting-Methoden eine robustere Leistung erzielt werden kann, wobei wir eine iterative Methode testen, die jeweils jeden intermediären Gedanken auf Basis seines Schlussfolgerungsziels und des Berechnungsergebnisses generiert und überprüft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp