HyperAIHyperAI

Command Palette

Search for a command to run...

Lila: Ein einheitlicher Benchmark für mathematisches Schlussfolgern

Zusammenfassung

Mathematische Schlussfolgerungsfähigkeiten sind für allgemeinzweckintelligente Systeme essenziell, um Aufgaben von der Lebensmittelbeschaffung bis hin zur Klimamodellierung zu bewältigen. Um den Stand von KI-Systemen in diesem Bereich zu bewerten und zu verbessern, stellen wir LILA vor, eine einheitliche Benchmark für mathematische Schlussfolgerung, die aus 23 unterschiedlichen Aufgaben besteht und sich entlang vier Dimensionen gliedert: (i) mathematische Fähigkeiten, beispielsweise Arithmetik, Analysis; (ii) Sprachformat, beispielsweise Fragen-Antworten, Lückentexte; (iii) sprachliche Vielfalt, beispielsweise keine Sprache, einfache Sprache; (iv) externes Wissen, beispielsweise Alltagswissen, Physik. Wir erstellen unsere Benchmark, indem wir 20 bestehende Datensätze erweitern, indem wir Aufgabenanweisungen und Lösungen in Form von Python-Programmen sammeln, wodurch wir nicht nur korrekte Antworten, sondern auch nachvollziehbare Lösungen erhalten. Zudem führen wir zwei zusätzliche Evaluationsdatensätze ein, um die Leistung außerhalb der Trainingsverteilung und die Robustheit gegenüber sprachlichen Störungen zu messen. Schließlich stellen wir BHASKARA vor, ein allgemeinzweckmathematisches Schlussfolgerungsmodell, das auf LILA trainiert wurde. Wichtig ist, dass Multi-Tasking zu signifikanten Verbesserungen führt (durchschnittliche relative Verbesserung um 21,83 % im F1-Score gegenüber Einzelaufgaben-Modellen), während das bestperformende Modell lediglich 60,40 % erreicht – was deutlich zeigt, dass noch erheblicher Verbesserungsbedarf im Bereich der allgemeinen mathematischen Schlussfolgerung und -verstehens besteht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lila: Ein einheitlicher Benchmark für mathematisches Schlussfolgern | Paper | HyperAI